我正在努力寻找合适的函数,将返回指定数量的行随机拾取,没有从R语言的数据帧替换?有人能帮帮我吗?
当前回答
你可以这样做:
sample_data = data[sample(nrow(data), sample_size, replace = FALSE), ]
其他回答
过时的答案。请使用dplyr::sample_frac()或dplyr::sample_n()代替。
在我的R包中有一个函数示例。仅用于此目的的行:
install.packages('kimisc')
library(kimisc)
example(sample.rows)
smpl..> set.seed(42)
smpl..> sample.rows(data.frame(a=c(1,2,3), b=c(4,5,6),
row.names=c('a', 'b', 'c')), 10, replace=TRUE)
a b
c 3 6
c.1 3 6
a 1 4
c.2 3 6
b 2 5
b.1 2 5
c.3 3 6
a.1 1 4
b.2 2 5
c.4 3 6
根据Joris Meys对之前的回答的评论,通过使它成为通用的S3函数来增强sample是一个坏主意。
数据。表包提供了函数DT[sample(。N, M)],从数据表DT中随机抽取M行。
library(data.table)
set.seed(10)
mtcars <- data.table(mtcars)
mtcars[sample(.N, 6)]
mpg cyl disp hp drat wt qsec vs am gear carb
1: 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4
2: 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
3: 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
4: 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
5: 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
6: 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
编辑:这个答案现在已经过时了,请参阅更新版本。
在我的R包中,我增强了样本,使它现在也像预期的数据帧一样:
library(devtools); install_github('kimisc', 'krlmlr')
library(kimisc)
example(sample.data.frame)
smpl..> set.seed(42)
smpl..> sample(data.frame(a=c(1,2,3), b=c(4,5,6),
row.names=c('a', 'b', 'c')), 10, replace=TRUE)
a b
c 3 6
c.1 3 6
a 1 4
c.2 3 6
b 2 5
b.1 2 5
c.3 3 6
a.1 1 4
b.2 2 5
c.4 3 6
这是通过将示例设置为S3泛型方法并在函数中提供必要的(普通的)功能来实现的。调用setMethod可以修复所有问题。原始实现仍然可以通过base::sample访问。
我是R的新手,但我用的是这个简单的方法:
sample_of_diamonds <- diamonds[sample(nrow(diamonds),100),]
PS:如果它有一些我没有想到的缺点,请注意。
正如@matt_b所指出的,sample_n()和sample_frac()已被软弃用,取而代之的是slice_sample()。请参阅dplyr文档。
示例来自docstring:
# slice_sample() allows you to random select with or without replacement
mtcars %>% slice_sample(n = 5)
mtcars %>% slice_sample(n = 5, replace = TRUE)
推荐文章
- 确定每列中NA值的个数
- 当使用ggplot创建一个plot时,hjust和vjust做什么?
- 如何结合多个条件子集数据帧使用“或”?
- 如何在Ruby中生成a和b之间的随机数?
- 在分类变量的图表中显示百分比%而不是计数
- 如何从多个向量中找到公共元素?
- java.util.Random真的那么随机吗?我怎么能生成52!(阶乘)可能的序列?
- 得到熊猫栏目的总数
- 从数组中随机选择一个元素
- 从pandas DataFrame中删除名称包含特定字符串的列
- 如何阅读一个。xlsx文件使用熊猫库在iPython?
- 如何访问熊猫组由数据帧按键
- Pandas:给定列的数据帧行之和
- 将数据帧行按向量按特定顺序排序
- 在FUN中访问lapply索引名