我正在努力寻找合适的函数,将返回指定数量的行随机拾取,没有从R语言的数据帧替换?有人能帮帮我吗?


当前回答

约翰·科尔比给出的答案是正确的。然而,如果你是一个dplyr用户,也有答案sample_n:

sample_n(df, 10)

从数据框架中随机抽取10行。它调用sample.int,因此实际上是相同的答案,但输入更少(并且简化了在magrittr上下文中的使用,因为dataframe是第一个参数)。

其他回答

在R中从tibble类型中选择一个随机样本:

library("tibble")    
a <- your_tibble[sample(1:nrow(your_tibble), 150),]

Nrow接受一个tibble并返回行数。传递给sample的第一个参数是一个从1到tibble末尾的范围。传递给sample的第二个参数是150,表示需要多少随机抽样。方括号切片指定返回索引的行。变量“a”获取随机抽样的值。

首先制作一些数据:

> df = data.frame(matrix(rnorm(20), nrow=10))
> df
           X1         X2
1   0.7091409 -1.4061361
2  -1.1334614 -0.1973846
3   2.3343391 -0.4385071
4  -0.9040278 -0.6593677
5   0.4180331 -1.2592415
6   0.7572246 -0.5463655
7  -0.8996483  0.4231117
8  -1.0356774 -0.1640883
9  -0.3983045  0.7157506
10 -0.9060305  2.3234110

然后随机选择一些行:

> df[sample(nrow(df), 3), ]
           X1         X2
9  -0.3983045  0.7157506
2  -1.1334614 -0.1973846
10 -0.9060305  2.3234110

为了完整起见:

Dplyr还提供绘制样本的比例或分数

df %>% sample_frac(0.33)

这是非常方便的,例如,在机器学习中,当你必须做一个特定的分割比例,如80%:20%

约翰·科尔比给出的答案是正确的。然而,如果你是一个dplyr用户,也有答案sample_n:

sample_n(df, 10)

从数据框架中随机抽取10行。它调用sample.int,因此实际上是相同的答案,但输入更少(并且简化了在magrittr上下文中的使用,因为dataframe是第一个参数)。

写一个!从JC的回答可以看出:

randomRows = function(df,n){
   return(df[sample(nrow(df),n),])
}

现在,通过首先检查n是否<=nrow(df)并在出现错误时停止,使其更好。