我有一个R数据帧有6列,我想创建一个新的数据帧,只有三个列。

假设我的数据帧是df,我想提取列A, B和E,这是我唯一能想出的命令:

 data.frame(df$A,df$B,df$E)

有没有更紧凑的方式来做这件事?


当前回答

有两个明显的选择:Joshua Ulrich的df[,c("A","B","E")]或

df[,c(1,2,5)]

就像在

> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> df
  A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
  A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
  A B E
1 1 3 8
2 2 4 8

其他回答

[和子集不可替换:

如果只选择了一列,[将返回一个向量。

df = data.frame(a="a",b="b")    

identical(
  df[,c("a")], 
  subset(df,select="a")
) 

identical(
  df[,c("a","b")],  
  subset(df,select=c("a","b"))
)

这是子集()函数的作用:

> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> subset(dat, select=c("A", "B"))
  A B
1 1 3
2 2 4

使用dplyr包,如果你的data.frame被称为df1:

library(dplyr)

df1 %>%
  select(A, B, E)

这也可以在没有%>%管道的情况下编写:

select(df1, A, B, E)

有两个明显的选择:Joshua Ulrich的df[,c("A","B","E")]或

df[,c(1,2,5)]

就像在

> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> df
  A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
  A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
  A B E
1 1 3 8
2 2 4 8

你也可以使用sqldf包来执行对R数据帧的选择:

df1 <- sqldf("select A, B, E from df")

这将提供一个数据帧df1作为输出,其中列:a, B,E。