我正在努力寻找合适的函数,将返回指定数量的行随机拾取,没有从R语言的数据帧替换?有人能帮帮我吗?
当前回答
你可以这样做:
sample_data = data[sample(nrow(data), sample_size, replace = FALSE), ]
其他回答
过时的答案。请使用dplyr::sample_frac()或dplyr::sample_n()代替。
在我的R包中有一个函数示例。仅用于此目的的行:
install.packages('kimisc')
library(kimisc)
example(sample.rows)
smpl..> set.seed(42)
smpl..> sample.rows(data.frame(a=c(1,2,3), b=c(4,5,6),
row.names=c('a', 'b', 'c')), 10, replace=TRUE)
a b
c 3 6
c.1 3 6
a 1 4
c.2 3 6
b 2 5
b.1 2 5
c.3 3 6
a.1 1 4
b.2 2 5
c.4 3 6
根据Joris Meys对之前的回答的评论,通过使它成为通用的S3函数来增强sample是一个坏主意。
编辑:这个答案现在已经过时了,请参阅更新版本。
在我的R包中,我增强了样本,使它现在也像预期的数据帧一样:
library(devtools); install_github('kimisc', 'krlmlr')
library(kimisc)
example(sample.data.frame)
smpl..> set.seed(42)
smpl..> sample(data.frame(a=c(1,2,3), b=c(4,5,6),
row.names=c('a', 'b', 'c')), 10, replace=TRUE)
a b
c 3 6
c.1 3 6
a 1 4
c.2 3 6
b 2 5
b.1 2 5
c.3 3 6
a.1 1 4
b.2 2 5
c.4 3 6
这是通过将示例设置为S3泛型方法并在函数中提供必要的(普通的)功能来实现的。调用setMethod可以修复所有问题。原始实现仍然可以通过base::sample访问。
我是R的新手,但我用的是这个简单的方法:
sample_of_diamonds <- diamonds[sample(nrow(diamonds),100),]
PS:如果它有一些我没有想到的缺点,请注意。
约翰·科尔比给出的答案是正确的。然而,如果你是一个dplyr用户,也有答案sample_n:
sample_n(df, 10)
从数据框架中随机抽取10行。它调用sample.int,因此实际上是相同的答案,但输入更少(并且简化了在magrittr上下文中的使用,因为dataframe是第一个参数)。
你可以这样做:
sample_data = data[sample(nrow(data), sample_size, replace = FALSE), ]
推荐文章
- 确定每列中NA值的个数
- 当使用ggplot创建一个plot时,hjust和vjust做什么?
- 如何结合多个条件子集数据帧使用“或”?
- 如何在Ruby中生成a和b之间的随机数?
- 在分类变量的图表中显示百分比%而不是计数
- 如何从多个向量中找到公共元素?
- java.util.Random真的那么随机吗?我怎么能生成52!(阶乘)可能的序列?
- 得到熊猫栏目的总数
- 从数组中随机选择一个元素
- 从pandas DataFrame中删除名称包含特定字符串的列
- 如何阅读一个。xlsx文件使用熊猫库在iPython?
- 如何访问熊猫组由数据帧按键
- Pandas:给定列的数据帧行之和
- 将数据帧行按向量按特定顺序排序
- 在FUN中访问lapply索引名