在与同事讨论绩效、教学、发送错误报告或搜索邮件列表和Stack Overflow上的指导时,经常会询问一个可重复的示例,并且总是很有用。
你有什么建议来创建一个优秀的例子?如何以文本格式粘贴r中的数据结构?您还应包括哪些其他信息?
除了使用dput()、dump()或structure()之外,还有其他技巧吗?什么时候应该包含library()或require()语句?除了c、df、data等之外,应该避免哪些保留字。?
如何做出一个伟大的、可重复的例子?
在与同事讨论绩效、教学、发送错误报告或搜索邮件列表和Stack Overflow上的指导时,经常会询问一个可重复的示例,并且总是很有用。
你有什么建议来创建一个优秀的例子?如何以文本格式粘贴r中的数据结构?您还应包括哪些其他信息?
除了使用dput()、dump()或structure()之外,还有其他技巧吗?什么时候应该包含library()或require()语句?除了c、df、data等之外,应该避免哪些保留字。?
如何做出一个伟大的、可重复的例子?
当前回答
从R.2.14开始(我猜),您可以将数据文本表示直接输入read.table:
df <- read.table(header=TRUE,
text="Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
")
其他回答
通常,您需要一些数据作为示例,但是,您不想发布确切的数据。要在已建立的库中使用一些现有的data.frame,请使用data命令导入它。
例如。,
data(mtcars)
然后解决问题
names(mtcars)
your problem demostrated on the mtcars data set
(这是我如何写一个可复制的例子的建议。我试图让它简短而甜蜜)。
如何编写可复制的示例
如果你提供了一个可重复的例子,你最有可能在R问题上得到很好的帮助。一个可复制的示例允许其他人通过复制和粘贴R代码来重新创建您的问题。
为了使示例具有可复制性,您需要包括四个方面:所需的包、数据、代码和R环境的描述。
包应该在脚本的顶部加载,因此很容易看看示例需要哪些。在电子邮件或堆栈溢出问题中包含数据的最简单方法是使用dput()生成R代码以重新创建它。例如,要在R中重新创建mtcars数据集,我将执行以下步骤:在R中运行dput(mtcars)复制输出在我的可复制脚本中,键入mtcars<-然后粘贴。花一点时间确保您的代码易于其他人使用内容如下:确保使用了空格,变量名称简洁,但是提供有用信息的使用注释指出问题所在尽最大努力删除与问题无关的所有内容。代码越短,越容易理解。在代码的注释中包含sessionInfo()的输出。这总结了您的R环境,并使其易于检查您是否使用了过时的包裹
您可以通过启动一个新的R会话并粘贴脚本来检查是否确实制作了一个可复制的示例。
在将所有代码放入电子邮件之前,请考虑将其放在Gistgithub上。它会给你的代码提供很好的语法高亮显示,你不必担心任何东西会被电子邮件系统破坏。
就我个人而言,我更喜欢“一”行。大致如下:
my.df <- data.frame(col1 = sample(c(1,2), 10, replace = TRUE),
col2 = as.factor(sample(10)), col3 = letters[1:10],
col4 = sample(c(TRUE, FALSE), 10, replace = TRUE))
my.list <- list(list1 = my.df, list2 = my.df[3], list3 = letters)
数据结构应该模仿作者问题的想法,而不是准确的逐字结构。当变量不覆盖我自己的变量或函数(如df)时,我真的很感激。
或者,你可以切几个角,指向一个预先存在的数据集,比如:
library(vegan)
data(varespec)
ord <- metaMDS(varespec)
不要忘记提及您可能使用的任何特殊软件包。
如果你想在更大的物体上演示一些东西,你可以尝试
my.df2 <- data.frame(a = sample(10e6), b = sample(letters, 10e6, replace = TRUE))
如果通过光栅包处理空间数据,则可以生成一些随机数据。在包装小插曲中可以找到很多例子,但这里有一个小亮点。
library(raster)
r1 <- r2 <- r3 <- raster(nrow=10, ncol=10)
values(r1) <- runif(ncell(r1))
values(r2) <- runif(ncell(r2))
values(r3) <- runif(ncell(r3))
s <- stack(r1, r2, r3)
如果您需要一些在sp中实现的空间对象,可以通过“空间”包中的外部文件(如ESRI shapefile)获取一些数据集(请参见任务视图中的空间视图)。
library(rgdal)
ogrDrivers()
dsn <- system.file("vectors", package = "rgdal")[1]
ogrListLayers(dsn)
ogrInfo(dsn=dsn, layer="cities")
cities <- readOGR(dsn=dsn, layer="cities")
除了我发现非常有趣的上述所有答案之外,有时也很容易,正如这里所讨论的:如何制作一个最小的可重复示例来获得R的帮助
有许多方法可以创建随机向量创建一个100个数字的向量,其中R中的随机值舍入为2个小数或R中的一个随机矩阵:
mydf1<- matrix(rnorm(20),nrow=20,ncol=5)
请注意,由于维度等各种原因,有时很难共享给定的数据。然而,上述所有答案都很好,在想要制作可复制的数据示例时,思考和使用这些答案非常重要。但请注意,为了使数据与原始数据一样具有代表性(以防OP无法共享原始数据),最好在数据示例中添加一些信息(如果我们将数据称为mydf1)
class(mydf1)
# this shows the type of the data you have
dim(mydf1)
# this shows the dimension of your data
此外,应该知道可以是数据结构的数据的类型、长度和属性
#found based on the following
typeof(mydf1), what it is.
length(mydf1), how many elements it contains.
attributes(mydf1), additional arbitrary metadata.
#If you cannot share your original data, you can str it and give an idea about the structure of your data
head(str(mydf1))
要快速创建数据的dput,只需将数据复制到剪贴板,然后在R中运行以下命令:
对于Excel中的数据:
dput(read.table("clipboard", sep="\t", header=TRUE))
对于.txt文件中的数据:
dput(read.table("clipboard", sep="", header=TRUE))
如果需要,可以更改后者中的sep。当然,只有当您的数据在剪贴板中时,这才有效。