在数据框架中随机取样行

我正在努力寻找合适的函数，将返回指定数量的行随机拾取，没有从R语言的数据帧替换?有人能帮帮我吗?

当前回答

编辑:这个答案现在已经过时了，请参阅更新版本。

在我的R包中，我增强了样本，使它现在也像预期的数据帧一样:

library(devtools); install_github('kimisc', 'krlmlr')

library(kimisc)
example(sample.data.frame)

smpl..> set.seed(42)

smpl..> sample(data.frame(a=c(1,2,3), b=c(4,5,6),
                           row.names=c('a', 'b', 'c')), 10, replace=TRUE)
    a b
c   3 6
c.1 3 6
a   1 4
c.2 3 6
b   2 5
b.1 2 5
c.3 3 6
a.1 1 4
b.2 2 5
c.4 3 6

这是通过将示例设置为S3泛型方法并在函数中提供必要的(普通的)功能来实现的。调用setMethod可以修复所有问题。原始实现仍然可以通过base::sample访问。

2013-05-14 08:21:56

其他回答

首先制作一些数据:

> df = data.frame(matrix(rnorm(20), nrow=10))
> df
           X1         X2
1   0.7091409 -1.4061361
2  -1.1334614 -0.1973846
3   2.3343391 -0.4385071
4  -0.9040278 -0.6593677
5   0.4180331 -1.2592415
6   0.7572246 -0.5463655
7  -0.8996483  0.4231117
8  -1.0356774 -0.1640883
9  -0.3983045  0.7157506
10 -0.9060305  2.3234110

然后随机选择一些行:

> df[sample(nrow(df), 3), ]
           X1         X2
9  -0.3983045  0.7157506
2  -1.1334614 -0.1973846
10 -0.9060305  2.3234110

2011-11-25 19:15:13

写一个!从JC的回答可以看出:

randomRows = function(df,n){
   return(df[sample(nrow(df),n),])
}

现在，通过首先检查n是否<=nrow(df)并在出现错误时停止，使其更好。

2011-11-25 19:21:29

你可以这样做:

sample_data = data[sample(nrow(data), sample_size, replace = FALSE), ]

2020-04-28 11:12:17

编辑:这个答案现在已经过时了，请参阅更新版本。

在我的R包中，我增强了样本，使它现在也像预期的数据帧一样:

library(devtools); install_github('kimisc', 'krlmlr')

library(kimisc)
example(sample.data.frame)

smpl..> set.seed(42)

smpl..> sample(data.frame(a=c(1,2,3), b=c(4,5,6),
                           row.names=c('a', 'b', 'c')), 10, replace=TRUE)
    a b
c   3 6
c.1 3 6
a   1 4
c.2 3 6
b   2 5
b.1 2 5
c.3 3 6
a.1 1 4
b.2 2 5
c.4 3 6

这是通过将示例设置为S3泛型方法并在函数中提供必要的(普通的)功能来实现的。调用setMethod可以修复所有问题。原始实现仍然可以通过base::sample访问。

2013-05-14 08:21:56

过时的答案。请使用dplyr::sample_frac()或dplyr::sample_n()代替。

在我的R包中有一个函数示例。仅用于此目的的行:

install.packages('kimisc')

library(kimisc)
example(sample.rows)

smpl..> set.seed(42)

smpl..> sample.rows(data.frame(a=c(1,2,3), b=c(4,5,6),
                               row.names=c('a', 'b', 'c')), 10, replace=TRUE)
    a b
c   3 6
c.1 3 6
a   1 4
c.2 3 6
b   2 5
b.1 2 5
c.3 3 6
a.1 1 4
b.2 2 5
c.4 3 6

根据Joris Meys对之前的回答的评论，通过使它成为通用的S3函数来增强sample是一个坏主意。

2014-01-15 11:42:09

在数据框架中随机取样行

推荐文章

最新文章

标签