如何制作一个伟大的R可重复示例

在与同事讨论绩效、教学、发送错误报告或搜索邮件列表和Stack Overflow上的指导时，经常会询问一个可重复的示例，并且总是很有用。

你有什么建议来创建一个优秀的例子？如何以文本格式粘贴r中的数据结构？您还应包括哪些其他信息？

除了使用dput（）、dump（）或structure（）之外，还有其他技巧吗？什么时候应该包含library（）或require（）语句？除了c、df、data等之外，应该避免哪些保留字。？

如何做出一个伟大的、可重复的例子？

当前回答

这是一个很好的指南。

最重要的一点是：制作一小段代码，我们可以运行它来了解问题所在。一个有用的函数是dput（），但是如果您有非常大的数据，那么您可能需要制作一个小样本数据集，或者只使用前10行左右。

编辑：

此外，确保您确定了问题所在。示例不应该是一个完整的R脚本，其中包含“在第200行出现错误”。如果您使用R（我爱浏览器（））和Google中的调试工具，那么您应该能够真正确定问题所在，并重现一个同样错误的小例子。

2011-05-11 11:21:24

其他回答

到目前为止，对于再现性部分，答案显然很好。这只是为了澄清，一个可复制的例子不能也不应该是问题的唯一组成部分。别忘了解释你希望它看起来是什么样子，以及你的问题的轮廓，而不仅仅是你迄今为止试图达到的目的。代码不够；你也需要语言。

这里有一个可重复的例子来说明应该避免做什么（从一个真实的例子中得出，为了保护无辜者而改变了名字）：

以下是示例数据和我遇到问题的部分函数。

code
code
code
code
code (40 or so lines of it)

我怎样才能做到这一点？

2012-07-09 15:41:13

我正在开发wakefield包，以解决快速共享可复制数据的需求，有时dput对较小的数据集很好，但我们处理的许多问题要大得多，通过dput共享如此大的数据集是不切实际的。

关于：

wakefield允许用户共享最少的代码来再现数据。用户设置n（行数）并指定任意数量的预设变量函数（目前有70个），这些函数模拟真实的if数据（如性别、年龄、收入等）

安装：

目前（2015年6月11日），wakefield是一个GitHub包，但在编写单元测试后，最终将转到CRAN。要快速安装，请使用：

if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh("trinker/wakefield")

例子：

下面是一个示例：

r_data_frame(
    n = 500,
    id,
    race,
    age,
    sex,
    hour,
    iq,
    height,
    died
)

这将产生：

    ID  Race Age    Sex     Hour  IQ Height  Died
1  001 White  33   Male 00:00:00 104     74  TRUE
2  002 White  24   Male 00:00:00  78     69 FALSE
3  003 Asian  34 Female 00:00:00 113     66  TRUE
4  004 White  22   Male 00:00:00 124     73  TRUE
5  005 White  25 Female 00:00:00  95     72  TRUE
6  006 White  26 Female 00:00:00 104     69  TRUE
7  007 Black  30 Female 00:00:00 111     71 FALSE
8  008 Black  29 Female 00:00:00 100     64  TRUE
9  009 Asian  25   Male 00:30:00 106     70 FALSE
10 010 White  27   Male 00:30:00 121     68 FALSE
.. ...   ... ...    ...      ... ...    ...   ...

2015-06-11 13:57:38

受到这篇文章的启发，我现在使用了一个方便的功能，当我需要发布到堆栈溢出时，repeat（＜mydata＞）。

快速说明

如果myData是要复制的对象的名称，请在R中运行以下命令：

install.packages("devtools")
library(devtools)
source_url("https://raw.github.com/rsaporta/pubR/gitbranch/reproduce.R")

reproduce(myData)

细节：

此函数是dput的智能包装器，执行以下操作：

自动对大型数据集进行采样（基于大小和类别。可以调整采样大小）创建dput输出允许您指定要导出的列在前面附加objName<-。。。，这样它可以很容易地复制和粘贴，但是。。。如果在Mac上工作，输出会自动复制到剪贴板，这样您就可以简单地运行它，然后将其粘贴到问题中。

可在以下位置获得来源：

GitHub-pubR/repeat.R

例子：

# sample data
DF <- data.frame(id=rep(LETTERS, each=4)[1:100], replicate(100, sample(1001, 100)), Class=sample(c("Yes", "No"), 100, TRUE))

DF约为100 x 102。我想对10行和一些特定列进行采样

reproduce(DF, cols=c("id", "X1", "X73", "Class"))  # I could also specify the column number.

提供以下输出：

This is what the sample looks like:

    id  X1 X73 Class
1    A 266 960   Yes
2    A 373 315    No            Notice the selection split
3    A 573 208    No           (which can be turned off)
4    A 907 850   Yes
5    B 202  46   Yes
6    B 895 969   Yes   <~~~ 70 % of selection is from the top rows
7    B 940 928    No
98   Y 371 171   Yes
99   Y 733 364   Yes   <~~~ 30 % of selection is from the bottom rows.
100  Y 546 641    No


    ==X==============================================================X==
         Copy+Paste this part. (If on a Mac, it is already copied!)
    ==X==============================================================X==

 DF <- structure(list(id = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 25L, 25L, 25L), .Label = c("A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y"), class = "factor"), X1 = c(266L, 373L, 573L, 907L, 202L, 895L, 940L, 371L, 733L, 546L), X73 = c(960L, 315L, 208L, 850L, 46L, 969L, 928L, 171L, 364L, 641L), Class = structure(c(2L, 1L, 1L, 2L, 2L, 2L, 1L, 2L, 2L, 1L), .Label = c("No", "Yes"), class = "factor")), .Names = c("id", "X1", "X73", "Class"), class = "data.frame", row.names = c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 98L, 99L, 100L))

    ==X==============================================================X==

还要注意，整个输出都是一个漂亮的单行，而不是一段高高的分段。这使得在Stack Overflow问题帖子上更容易阅读，也更容易复制和粘贴。

2013年10月更新：

现在，您可以指定将占用多少行文本输出（即，将粘贴到堆栈溢出中的内容）。为此，请使用lines.out=n参数。例子：

复制（DF，列=c（1:3，17，23），行.out=7）得到：

    ==X==============================================================X==
         Copy+Paste this part. (If on a Mac, it is already copied!)
    ==X==============================================================X==

 DF <- structure(list(id = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 25L,25L, 25L), .Label
      = c("A", "B", "C", "D", "E", "F", "G", "H","I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U","V", "W", "X", "Y"), class = "factor"),
      X1 = c(809L, 81L, 862L,747L, 224L, 721L, 310L, 53L, 853L, 642L),
      X2 = c(926L, 409L,825L, 702L, 803L, 63L, 319L, 941L, 598L, 830L),
      X16 = c(447L,164L, 8L, 775L, 471L, 196L, 30L, 420L, 47L, 327L),
      X22 = c(335L,164L, 503L, 407L, 662L, 139L, 111L, 721L, 340L, 178L)), .Names = c("id","X1",
      "X2", "X16", "X22"), class = "data.frame", row.names = c(1L,2L, 3L, 4L, 5L, 6L, 7L, 98L, 99L, 100L))

    ==X==============================================================X==

2013-05-13 22:20:34

这是一个很好的指南。

编辑：

2011-05-11 11:21:24

通常，您需要一些数据作为示例，但是，您不想发布确切的数据。要在已建立的库中使用一些现有的data.frame，请使用data命令导入它。

例如。，

data(mtcars)

然后解决问题

names(mtcars)
your problem demostrated on the mtcars data set

2013-02-22 15:29:33

如何制作一个伟大的R可重复示例

推荐文章

最新文章

标签