我有一个R数据帧有6列,我想创建一个新的数据帧,只有三个列。
假设我的数据帧是df,我想提取列A, B和E,这是我唯一能想出的命令:
data.frame(df$A,df$B,df$E)
有没有更紧凑的方式来做这件事?
我有一个R数据帧有6列,我想创建一个新的数据帧,只有三个列。
假设我的数据帧是df,我想提取列A, B和E,这是我唯一能想出的命令:
data.frame(df$A,df$B,df$E)
有没有更紧凑的方式来做这件事?
当前回答
这是子集()函数的作用:
> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> subset(dat, select=c("A", "B"))
A B
1 1 3
2 2 4
其他回答
这是子集()函数的作用:
> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> subset(dat, select=c("A", "B"))
A B
1 1 3
2 2 4
出于某种原因
df[, (names(df) %in% c("A","B","E"))]
为我工作。以上所有语法都产生了“未定义的选定列”。
df<- dplyr::select ( df,A,B,C)
此外,还可以为新创建的数据分配不同的名称
data<- dplyr::select ( df,A,B,C)
其中df1是原始数据帧:
df2 <- subset(df1, select = c(1, 2, 5))
您可以使用列名的向量进行子集。我强烈喜欢这种方法,而不是那些将列名视为对象名的方法(例如子集()),特别是在函数、包或应用程序中编程时。
# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[c("A","B","E")]
注意没有逗号(即不是df (c(“A”、“B”、“c”)])。这是因为df[,"A"]返回一个向量,而不是一个数据帧。但是df["A"]总是会返回一个数据帧。
str(df["A"])
## 'data.frame': 1 obs. of 1 variable:
## $ A: int 1
str(df[,"A"]) # vector
## int 1
感谢David Dorchies指出df[,“A”]返回一个向量而不是一个data.frame,并感谢Antoine Fabri为我的原始解决方案(下图)提供了一个更好的替代方案(上图)。
# subset (original solution--not recommended)
df[,c("A","B","E")] # returns a data.frame
df[,"A"] # returns a vector