如何制作一个伟大的R可重复示例

在与同事讨论绩效、教学、发送错误报告或搜索邮件列表和Stack Overflow上的指导时，经常会询问一个可重复的示例，并且总是很有用。

你有什么建议来创建一个优秀的例子？如何以文本格式粘贴r中的数据结构？您还应包括哪些其他信息？

除了使用dput（）、dump（）或structure（）之外，还有其他技巧吗？什么时候应该包含library（）或require（）语句？除了c、df、data等之外，应该避免哪些保留字。？

如何做出一个伟大的、可重复的例子？

当前回答

就我个人而言，我更喜欢“一”行。大致如下：

my.df <- data.frame(col1 = sample(c(1,2), 10, replace = TRUE),
        col2 = as.factor(sample(10)), col3 = letters[1:10],
        col4 = sample(c(TRUE, FALSE), 10, replace = TRUE))
my.list <- list(list1 = my.df, list2 = my.df[3], list3 = letters)

数据结构应该模仿作者问题的想法，而不是准确的逐字结构。当变量不覆盖我自己的变量或函数（如df）时，我真的很感激。

或者，你可以切几个角，指向一个预先存在的数据集，比如：

library(vegan)
data(varespec)
ord <- metaMDS(varespec)

不要忘记提及您可能使用的任何特殊软件包。

如果你想在更大的物体上演示一些东西，你可以尝试

my.df2 <- data.frame(a = sample(10e6), b = sample(letters, 10e6, replace = TRUE))

如果通过光栅包处理空间数据，则可以生成一些随机数据。在包装小插曲中可以找到很多例子，但这里有一个小亮点。

library(raster)
r1 <- r2 <- r3 <- raster(nrow=10, ncol=10)
values(r1) <- runif(ncell(r1))
values(r2) <- runif(ncell(r2))
values(r3) <- runif(ncell(r3))
s <- stack(r1, r2, r3)

如果您需要一些在sp中实现的空间对象，可以通过“空间”包中的外部文件（如ESRI shapefile）获取一些数据集（请参见任务视图中的空间视图）。

library(rgdal)
ogrDrivers()
dsn <- system.file("vectors", package = "rgdal")[1]
ogrListLayers(dsn)
ogrInfo(dsn=dsn, layer="cities")
cities <- readOGR(dsn=dsn, layer="cities")

2011-05-11 11:22:15

其他回答

您可以使用reprex执行此操作。

正如mt1022所指出的，“……生产最小、可重复示例的好包装是tidyverse的“reprex”。”。

根据Tidyverse的说法：

“reprex”的目标是以这样一种方式打包您的问题代码，使其他人可以运行它并感受到您的痛苦。

tidyverse网站上给出了一个示例。

library(reprex)
y <- 1:4
mean(y)
reprex()

我认为这是创建可复制示例的最简单方法。

2017-08-18 19:02:43

我有一个非常简单和有效的方法来制作上面没有提到的R示例。你可以先定义你的结构。例如

mydata <- data.frame(a=character(0), b=numeric(0),  c=numeric(0), d=numeric(0))

>fix(mydata)

然后您可以手动输入数据。这对于较小的示例而不是较大的示例是有效的。

2014-02-20 09:11:37

除了我发现非常有趣的上述所有答案之外，有时也很容易，正如这里所讨论的：如何制作一个最小的可重复示例来获得R的帮助

有许多方法可以创建随机向量创建一个100个数字的向量，其中R中的随机值舍入为2个小数或R中的一个随机矩阵：

mydf1<- matrix(rnorm(20),nrow=20,ncol=5)

请注意，由于维度等各种原因，有时很难共享给定的数据。然而，上述所有答案都很好，在想要制作可复制的数据示例时，思考和使用这些答案非常重要。但请注意，为了使数据与原始数据一样具有代表性（以防OP无法共享原始数据），最好在数据示例中添加一些信息（如果我们将数据称为mydf1）

class(mydf1)
# this shows the type of the data you have
dim(mydf1)
# this shows the dimension of your data

此外，应该知道可以是数据结构的数据的类型、长度和属性

#found based on the following
typeof(mydf1), what it is.
length(mydf1), how many elements it contains.
attributes(mydf1), additional arbitrary metadata.

#If you cannot share your original data, you can str it and give an idea about the structure of your data
head(str(mydf1))

2016-04-20 10:50:39

（这是我如何写一个可复制的例子的建议。我试图让它简短而甜蜜）。

如何编写可复制的示例

如果你提供了一个可重复的例子，你最有可能在R问题上得到很好的帮助。一个可复制的示例允许其他人通过复制和粘贴R代码来重新创建您的问题。

为了使示例具有可复制性，您需要包括四个方面：所需的包、数据、代码和R环境的描述。

包应该在脚本的顶部加载，因此很容易看看示例需要哪些。在电子邮件或堆栈溢出问题中包含数据的最简单方法是使用dput（）生成R代码以重新创建它。例如，要在R中重新创建mtcars数据集，我将执行以下步骤：在R中运行dput（mtcars）复制输出在我的可复制脚本中，键入mtcars<-然后粘贴。花一点时间确保您的代码易于其他人使用内容如下：确保使用了空格，变量名称简洁，但是提供有用信息的使用注释指出问题所在尽最大努力删除与问题无关的所有内容。代码越短，越容易理解。在代码的注释中包含sessionInfo（）的输出。这总结了您的R环境，并使其易于检查您是否使用了过时的包裹

您可以通过启动一个新的R会话并粘贴脚本来检查是否确实制作了一个可复制的示例。

在将所有代码放入电子邮件之前，请考虑将其放在Gistgithub上。它会给你的代码提供很好的语法高亮显示，你不必担心任何东西会被电子邮件系统破坏。

2011-05-11 13:57:51

到目前为止，对于再现性部分，答案显然很好。这只是为了澄清，一个可复制的例子不能也不应该是问题的唯一组成部分。别忘了解释你希望它看起来是什么样子，以及你的问题的轮廓，而不仅仅是你迄今为止试图达到的目的。代码不够；你也需要语言。

这里有一个可重复的例子来说明应该避免做什么（从一个真实的例子中得出，为了保护无辜者而改变了名字）：

以下是示例数据和我遇到问题的部分函数。

code
code
code
code
code (40 or so lines of it)

我怎样才能做到这一点？

2012-07-09 15:41:13

如何制作一个伟大的R可重复示例

推荐文章

最新文章

标签