如何在数据帧中按名称删除列

我有一个很大的数据集，我想阅读特定的列或放弃所有其他列。

data <- read.dta("file.dta")

我选择我不感兴趣的列:

var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv", "m_serv")]

然后我想做的事情是:

for(i in 1:length(var.out)) {
   paste("data$", var.out[i], sep="") <- NULL
}

删除所有不需要的列。这是最优解吗?

当前回答

我将代码更改为:

# read data
dat<-read.dta("file.dta")

# vars to delete
var.in<-c("iden", "name", "x_serv", "m_serv")

# what I'm keeping
var.out<-setdiff(names(dat),var.in)

# keep only the ones I want       
dat <- dat[var.out]

无论如何，朱巴的答案是我问题的最佳解决方案!

2011-03-09 09:24:55

其他回答

你也可以尝试dplyr包:

R> df <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
R> df
  x y z u
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
5 5 6 7 8
R> library(dplyr)
R> dplyr::select(df2, -c(x, y))  # remove columns x and y
  z u
1 3 4
2 4 5
3 5 6
4 6 7
5 7 8

2015-06-12 18:15:06

您应该使用索引或子集函数。例如:

R> df <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
R> df
  x y z u
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
5 5 6 7 8

然后你可以在列索引中使用which函数和-运算符:

R> df[ , -which(names(df) %in% c("z","u"))]
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

或者，更简单的是，使用子集函数的select参数:然后可以直接对列名向量使用-运算符，甚至可以省略列名周围的引号!

R> subset(df, select=-c(z,u))
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

注意，你也可以选择你想要的列，而不是删除其他列:

R> df[ , c("x","y")]
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

R> subset(df, select=c(x,y))
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

2011-03-08 15:03:39

不要使用-which()，这是极其危险的。考虑:

dat <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
dat[ , -which(names(dat) %in% c("z","u"))] ## works as expected
dat[ , -which(names(dat) %in% c("foo","bar"))] ## deletes all columns! Probably not what you wanted...

使用子集或!功能:

dat[ , !names(dat) %in% c("z","u")] ## works as expected
dat[ , !names(dat) %in% c("foo","bar")] ## returns the un-altered data.frame. Probably what you want

我从痛苦的经历中学到了这一点。不要过度使用which()!

2011-03-08 18:12:23

我不能在评论中回答你的问题，因为我的声誉评分很低。

下面的代码将给出一个错误，因为粘贴函数返回一个字符串

for(i in 1:length(var.out)) {
   paste("data$", var.out[i], sep="") <- NULL
}

这里有一个可能的解决方案:

for(i in 1:length(var.out)) {

  text_to_source <- paste0 ("data$", var.out[i], "<- NULL") # Write a line of your
                                                  # code like a character string
  eval (parse (text=text_to_source)) # Source a text that contains a code
}

或者直接做:

for(i in 1:length(var.out)) {
  data[var.out[i]] <- NULL
}

2014-04-07 13:09:34

这里有一个快速的解决方案。假设，你有一个数据帧X，有三列a, B和C:

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6))
> X
  A B C
1 1 3 5
2 2 4 6

如果我想删除一个列，比如B，只需在colnames上使用grep来获得列索引，然后可以使用它来省略该列。

> X<-X[,-grep("B",colnames(X))]

你的新X数据帧看起来如下所示(这次没有B列):

grep的美妙之处在于您可以指定多个匹配正则表达式的列。如果X有五列(A,B,C,D,E):

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,8),E=c(9,10))
> X
  A B C D  E
1 1 3 5 7  9
2 2 4 6 8 10

去掉B列和D列:

> X<-X[,-grep("B|D",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

编辑:考虑到Matthew Lundberg在下面的评论中提出的grepl建议:

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,8),E=c(9,10))
> X
  A B C D  E
1 1 3 5 7  9
2 2 4 6 8 10
> X<-X[,!grepl("B|D",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

如果我试图删除一个不存在的列，什么都不会发生:

> X<-X[,!grepl("G",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

2015-12-25 01:10:20

如何在数据帧中按名称删除列

推荐文章

最新文章

标签