如何制作一个伟大的R可重复示例

在与同事讨论绩效、教学、发送错误报告或搜索邮件列表和Stack Overflow上的指导时，经常会询问一个可重复的示例，并且总是很有用。

你有什么建议来创建一个优秀的例子？如何以文本格式粘贴r中的数据结构？您还应包括哪些其他信息？

除了使用dput（）、dump（）或structure（）之外，还有其他技巧吗？什么时候应该包含library（）或require（）语句？除了c、df、data等之外，应该避免哪些保留字。？

如何做出一个伟大的、可重复的例子？

当前回答

R-help邮件列表有一个发布指南，包括提问和回答问题，包括生成数据的示例：

示例：有时提供一个小例子实际上可以运行。例如：如果我有如下矩阵x：

  > x <- matrix(1:8, nrow=4, ncol=2,
                dimnames=list(c("A","B","C","D"), c("x","y"))
  > x
    x y
  A 1 5
  B 2 6
  C 3 7
  D 4 8
  >

如何将其转换为数据帧具有8行和3列“row”、“col”和“value”，它们具有维度名称为“row”和“col”的值，如下所示：

  > x.df
     row col value
  1    A   x      1

...（答案可能是：

  > x.df <- reshape(data.frame(row=rownames(x), x), direction="long",
                    varying=list(colnames(x)), times=colnames(x),
                    v.names="value", timevar="col", idvar="row")

)

“小”这个词特别重要。您应该以最小的可重复示例为目标，这意味着数据和代码应该尽可能简单地解释问题。

编辑：漂亮的代码比难看的代码更容易阅读。使用样式指南。

2011-05-11 13:17:38

其他回答

从R.2.14开始（我猜），您可以将数据文本表示直接输入read.table：

 df <- read.table(header=TRUE, 
  text="Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
")

2012-06-29 08:32:04

除了我发现非常有趣的上述所有答案之外，有时也很容易，正如这里所讨论的：如何制作一个最小的可重复示例来获得R的帮助

有许多方法可以创建随机向量创建一个100个数字的向量，其中R中的随机值舍入为2个小数或R中的一个随机矩阵：

mydf1<- matrix(rnorm(20),nrow=20,ncol=5)

请注意，由于维度等各种原因，有时很难共享给定的数据。然而，上述所有答案都很好，在想要制作可复制的数据示例时，思考和使用这些答案非常重要。但请注意，为了使数据与原始数据一样具有代表性（以防OP无法共享原始数据），最好在数据示例中添加一些信息（如果我们将数据称为mydf1）

class(mydf1)
# this shows the type of the data you have
dim(mydf1)
# this shows the dimension of your data

此外，应该知道可以是数据结构的数据的类型、长度和属性

#found based on the following
typeof(mydf1), what it is.
length(mydf1), how many elements it contains.
attributes(mydf1), additional arbitrary metadata.

#If you cannot share your original data, you can str it and give an idea about the structure of your data
head(str(mydf1))

2016-04-20 10:50:39

这是一个很好的指南。

最重要的一点是：制作一小段代码，我们可以运行它来了解问题所在。一个有用的函数是dput（），但是如果您有非常大的数据，那么您可能需要制作一个小样本数据集，或者只使用前10行左右。

编辑：

此外，确保您确定了问题所在。示例不应该是一个完整的R脚本，其中包含“在第200行出现错误”。如果您使用R（我爱浏览器（））和Google中的调试工具，那么您应该能够真正确定问题所在，并重现一个同样错误的小例子。

2011-05-11 11:21:24

以下是我的一些建议：

尝试使用默认的R数据集如果您有自己的数据集，请将其包含在dput中，这样其他人可以更轻松地帮助您除非确有必要，否则不要使用install.package（），人们会理解您是否只使用require或library尽量简明扼要，有一些数据集尽量简单地描述您需要的输出问问题之前自己做上传图片很容易，所以如果你有还包括您可能遇到的任何错误

所有这些都是可复制示例的一部分。

2016-04-09 18:15:19

指南：

你提出问题的主要目的应该是让读者尽可能容易地理解并在他们的系统上重现你的问题。为此：

提供输入数据提供预期输出简洁地解释您的问题如果您有超过20行的文本+代码，您可能可以回去简化尽可能简化代码，同时保留问题/错误

这确实需要一些工作，但这似乎是一种公平的权衡，因为你要求别人为你做工作。

提供数据：

内置数据集

到目前为止，最好的选择是依赖内置数据集。这使得其他人很容易解决您的问题。在R提示符下键入data（）以查看您可以使用的数据。一些经典的例子：

虹膜地铁车厢ggplot2：：钻石（外包装，但几乎每个人都有）

检查内置数据集以找到适合您问题的数据集。

如果你能用内置的数据集重新表述你的问题，你就更有可能得到好的答案（和支持）。

自行生成的数据

如果您的问题是特定于现有数据集中未表示的数据类型，请提供R代码，以生成您的问题所在的最小可能数据集。例如

set.seed(1)  # important to make random data reproducible
myData <- data.frame(a=sample(letters[1:5], 20, rep=T), b=runif(20))

试图回答我的问题的人可以复制/粘贴这两行，然后立即开始解决问题。

dput

最后，您可以使用dput将数据对象转换为R代码（例如dput（myData））。我说这是“最后的手段”，因为dput的输出通常相当笨拙，复制粘贴很烦人，并掩盖了您的其余问题。

提供预期输出：

有人曾经说过：

一张预期产出的图片值1000字--智者

如果您可以添加类似“我希望得到这个结果”的内容：

   cyl   mean.hp
1:   6 122.28571
2:   4  82.63636
3:   8 209.21429

对于你的问题，人们更容易理解你想快速做什么。如果您的预期结果很大且难以处理，那么您可能还没有充分考虑如何简化您的问题（见下一页）。

简洁地解释您的问题

主要要做的是在提问之前尽可能简化问题。在这方面，重新构建问题框架以使用内置数据集将有很大帮助。你也会经常发现，仅仅通过简化的过程，你就能回答自己的问题。

以下是一些好问题的示例：

内置数据集使用用户生成的数据

在这两种情况下，用户的问题几乎肯定与他们提供的简单示例无关。相反，他们抽象了问题的本质，并将其应用于一个简单的数据集，以提出问题。

为什么这个问题还有另一个答案？

这个答案侧重于我认为的最佳实践：使用内置数据集，并以最小的形式提供您期望的结果。最突出的答案侧重于其他方面。我不指望这个答案会上升到任何突出的位置；这只是为了让我可以在新手问题的评论中链接到它。

2015-02-12 15:24:00

如何制作一个伟大的R可重复示例

推荐文章

最新文章

标签