在与同事讨论绩效、教学、发送错误报告或搜索邮件列表和Stack Overflow上的指导时,经常会询问一个可重复的示例,并且总是很有用。

你有什么建议来创建一个优秀的例子?如何以文本格式粘贴r中的数据结构?您还应包括哪些其他信息?

除了使用dput()、dump()或structure()之外,还有其他技巧吗?什么时候应该包含library()或require()语句?除了c、df、data等之外,应该避免哪些保留字。?

如何做出一个伟大的、可重复的例子?


当前回答

指南:


你提出问题的主要目的应该是让读者尽可能容易地理解并在他们的系统上重现你的问题。为此:

提供输入数据提供预期输出简洁地解释您的问题如果您有超过20行的文本+代码,您可能可以回去简化尽可能简化代码,同时保留问题/错误

这确实需要一些工作,但这似乎是一种公平的权衡,因为你要求别人为你做工作。

提供数据:


内置数据集

到目前为止,最好的选择是依赖内置数据集。这使得其他人很容易解决您的问题。在R提示符下键入data()以查看您可以使用的数据。一些经典的例子:

虹膜地铁车厢ggplot2::钻石(外包装,但几乎每个人都有)

检查内置数据集以找到适合您问题的数据集。

如果你能用内置的数据集重新表述你的问题,你就更有可能得到好的答案(和支持)。

自行生成的数据

如果您的问题是特定于现有数据集中未表示的数据类型,请提供R代码,以生成您的问题所在的最小可能数据集。例如

set.seed(1)  # important to make random data reproducible
myData <- data.frame(a=sample(letters[1:5], 20, rep=T), b=runif(20))

试图回答我的问题的人可以复制/粘贴这两行,然后立即开始解决问题。

dput

最后,您可以使用dput将数据对象转换为R代码(例如dput(myData))。我说这是“最后的手段”,因为dput的输出通常相当笨拙,复制粘贴很烦人,并掩盖了您的其余问题。

提供预期输出:


有人曾经说过:

一张预期产出的图片值1000字--智者

如果您可以添加类似“我希望得到这个结果”的内容:

   cyl   mean.hp
1:   6 122.28571
2:   4  82.63636
3:   8 209.21429

对于你的问题,人们更容易理解你想快速做什么。如果您的预期结果很大且难以处理,那么您可能还没有充分考虑如何简化您的问题(见下一页)。

简洁地解释您的问题


主要要做的是在提问之前尽可能简化问题。在这方面,重新构建问题框架以使用内置数据集将有很大帮助。你也会经常发现,仅仅通过简化的过程,你就能回答自己的问题。

以下是一些好问题的示例:

内置数据集使用用户生成的数据

在这两种情况下,用户的问题几乎肯定与他们提供的简单示例无关。相反,他们抽象了问题的本质,并将其应用于一个简单的数据集,以提出问题。

为什么这个问题还有另一个答案?


这个答案侧重于我认为的最佳实践:使用内置数据集,并以最小的形式提供您期望的结果。最突出的答案侧重于其他方面。我不指望这个答案会上升到任何突出的位置;这只是为了让我可以在新手问题的评论中链接到它。

其他回答

R-help邮件列表有一个发布指南,包括提问和回答问题,包括生成数据的示例:

示例:有时提供一个小例子实际上可以运行。例如:如果我有如下矩阵x:

  > x <- matrix(1:8, nrow=4, ncol=2,
                dimnames=list(c("A","B","C","D"), c("x","y"))
  > x
    x y
  A 1 5
  B 2 6
  C 3 7
  D 4 8
  >

如何将其转换为数据帧具有8行和3列“row”、“col”和“value”,它们具有维度名称为“row”和“col”的值,如下所示:

  > x.df
     row col value
  1    A   x      1

...(答案可能是:

  > x.df <- reshape(data.frame(row=rownames(x), x), direction="long",
                    varying=list(colnames(x)), times=colnames(x),
                    v.names="value", timevar="col", idvar="row")

)

“小”这个词特别重要。您应该以最小的可重复示例为目标,这意味着数据和代码应该尽可能简单地解释问题。

编辑:漂亮的代码比难看的代码更容易阅读。使用样式指南。

我正在开发wakefield包,以解决快速共享可复制数据的需求,有时dput对较小的数据集很好,但我们处理的许多问题要大得多,通过dput共享如此大的数据集是不切实际的。

关于:

wakefield允许用户共享最少的代码来再现数据。用户设置n(行数)并指定任意数量的预设变量函数(目前有70个),这些函数模拟真实的if数据(如性别、年龄、收入等)

安装:

目前(2015年6月11日),wakefield是一个GitHub包,但在编写单元测试后,最终将转到CRAN。要快速安装,请使用:

if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh("trinker/wakefield")

例子:

下面是一个示例:

r_data_frame(
    n = 500,
    id,
    race,
    age,
    sex,
    hour,
    iq,
    height,
    died
)

这将产生:

    ID  Race Age    Sex     Hour  IQ Height  Died
1  001 White  33   Male 00:00:00 104     74  TRUE
2  002 White  24   Male 00:00:00  78     69 FALSE
3  003 Asian  34 Female 00:00:00 113     66  TRUE
4  004 White  22   Male 00:00:00 124     73  TRUE
5  005 White  25 Female 00:00:00  95     72  TRUE
6  006 White  26 Female 00:00:00 104     69  TRUE
7  007 Black  30 Female 00:00:00 111     71 FALSE
8  008 Black  29 Female 00:00:00 100     64  TRUE
9  009 Asian  25   Male 00:30:00 106     70 FALSE
10 010 White  27   Male 00:30:00 121     68 FALSE
.. ...   ... ...    ...      ... ...    ...   ...

如果您的数据中有一个或多个因子变量,您希望使用dput(head(mydata))进行复制,请考虑向其添加droplevel,以便最小化数据集中不存在的因子级别不包含在dput输出中,以使示例最小化:

dput(droplevels(head(mydata)))

通常,您需要一些数据作为示例,但是,您不想发布确切的数据。要在已建立的库中使用一些现有的data.frame,请使用data命令导入它。

例如。,

data(mtcars)

然后解决问题

names(mtcars)
your problem demostrated on the mtcars data set

指南:


你提出问题的主要目的应该是让读者尽可能容易地理解并在他们的系统上重现你的问题。为此:

提供输入数据提供预期输出简洁地解释您的问题如果您有超过20行的文本+代码,您可能可以回去简化尽可能简化代码,同时保留问题/错误

这确实需要一些工作,但这似乎是一种公平的权衡,因为你要求别人为你做工作。

提供数据:


内置数据集

到目前为止,最好的选择是依赖内置数据集。这使得其他人很容易解决您的问题。在R提示符下键入data()以查看您可以使用的数据。一些经典的例子:

虹膜地铁车厢ggplot2::钻石(外包装,但几乎每个人都有)

检查内置数据集以找到适合您问题的数据集。

如果你能用内置的数据集重新表述你的问题,你就更有可能得到好的答案(和支持)。

自行生成的数据

如果您的问题是特定于现有数据集中未表示的数据类型,请提供R代码,以生成您的问题所在的最小可能数据集。例如

set.seed(1)  # important to make random data reproducible
myData <- data.frame(a=sample(letters[1:5], 20, rep=T), b=runif(20))

试图回答我的问题的人可以复制/粘贴这两行,然后立即开始解决问题。

dput

最后,您可以使用dput将数据对象转换为R代码(例如dput(myData))。我说这是“最后的手段”,因为dput的输出通常相当笨拙,复制粘贴很烦人,并掩盖了您的其余问题。

提供预期输出:


有人曾经说过:

一张预期产出的图片值1000字--智者

如果您可以添加类似“我希望得到这个结果”的内容:

   cyl   mean.hp
1:   6 122.28571
2:   4  82.63636
3:   8 209.21429

对于你的问题,人们更容易理解你想快速做什么。如果您的预期结果很大且难以处理,那么您可能还没有充分考虑如何简化您的问题(见下一页)。

简洁地解释您的问题


主要要做的是在提问之前尽可能简化问题。在这方面,重新构建问题框架以使用内置数据集将有很大帮助。你也会经常发现,仅仅通过简化的过程,你就能回答自己的问题。

以下是一些好问题的示例:

内置数据集使用用户生成的数据

在这两种情况下,用户的问题几乎肯定与他们提供的简单示例无关。相反,他们抽象了问题的本质,并将其应用于一个简单的数据集,以提出问题。

为什么这个问题还有另一个答案?


这个答案侧重于我认为的最佳实践:使用内置数据集,并以最小的形式提供您期望的结果。最突出的答案侧重于其他方面。我不指望这个答案会上升到任何突出的位置;这只是为了让我可以在新手问题的评论中链接到它。