如何在数据帧中按名称删除列

我有一个很大的数据集，我想阅读特定的列或放弃所有其他列。

data <- read.dta("file.dta")

我选择我不感兴趣的列:

var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv", "m_serv")]

然后我想做的事情是:

for(i in 1:length(var.out)) {
   paste("data$", var.out[i], sep="") <- NULL
}

删除所有不需要的列。这是最优解吗?

当前回答

我试图在使用包数据时删除一列。表并得到了意想不到的结果。我觉得下面的内容可能值得发表。只是一个小警告。

[编辑:Matthew…］

DF = read.table(text = "
     fruit state grade y1980 y1990 y2000
     apples Ohio   aa    500   100   55
     apples Ohio   bb      0     0   44
     apples Ohio   cc    700     0   33
     apples Ohio   dd    300    50   66
", sep = "", header = TRUE, stringsAsFactors = FALSE)

DF[ , !names(DF) %in% c("grade")]   # all columns other than 'grade'
   fruit state y1980 y1990 y2000
1 apples  Ohio   500   100    55
2 apples  Ohio     0     0    44
3 apples  Ohio   700     0    33
4 apples  Ohio   300    50    66

library('data.table')
DT = as.data.table(DF)

DT[ , !names(dat4) %in% c("grade")]    # not expected !! not the same as DF !!
[1]  TRUE  TRUE FALSE  TRUE  TRUE  TRUE

DT[ , !names(DT) %in% c("grade"), with=FALSE]    # that's better
    fruit state y1980 y1990 y2000
1: apples  Ohio   500   100    55
2: apples  Ohio     0     0    44
3: apples  Ohio   700     0    33
4: apples  Ohio   300    50    66

基本上就是数据的语法。table与data.frame并不完全相同。实际上有很多不同之处，参见FAQ 1.1和FAQ 2.17。我警告过你!

2013-01-04 01:02:31

其他回答

首先，如果您使用相同的数据帧，您可以使用直接索引(使用布尔向量)而不是重新访问列名;正如Ista所指出的那样，它会更安全，而且编写和执行速度更快。所以你只需要:

var.out.bool <- !names(data) %in% c("iden", "name", "x_serv", "m_serv")

然后，简单地重新分配数据:

data <- data[,var.out.bool] # or...
data <- data[,var.out.bool, drop = FALSE] # You will need this option to avoid the conversion to an atomic vector if there is only one column left

第二，写的更快，你可以直接给你想要删除的列赋值NULL:

data[c("iden", "name", "x_serv", "m_serv")] <- list(NULL) # You need list() to respect the target structure.

最后，您可以使用子集()，但它不能真正在代码中使用(甚至帮助文件也会对此发出警告)。具体来说，我的一个问题是，如果你想直接使用susbset()的drop特性，你需要写不带引号的表达式对应的列名:

subset( data, select = -c("iden", "name", "x_serv", "m_serv") ) # WILL NOT WORK
subset( data, select = -c(iden, name, x_serv, m_serv) ) # WILL

作为奖励，这里是不同选项的小基准测试，它清楚地表明子集是较慢的，而第一个，重新分配方法是更快的:

                                        re_assign(dtest, drop_vec)  46.719  52.5655  54.6460  59.0400  1347.331
                                      null_assign(dtest, drop_vec)  74.593  83.0585  86.2025  94.0035  1476.150
               subset(dtest, select = !names(dtest) %in% drop_vec) 106.280 115.4810 120.3435 131.4665 65133.780
 subset(dtest, select = names(dtest)[!names(dtest) %in% drop_vec]) 108.611 119.4830 124.0865 135.4270  1599.577
                                  subset(dtest, select = -c(x, y)) 102.026 111.2680 115.7035 126.2320  1484.174

代码如下:

dtest <- data.frame(x=1:5, y=2:6, z = 3:7)
drop_vec <- c("x", "y")

null_assign <- function(df, names) {
  df[names] <- list(NULL)
  df
}

re_assign <- function(df, drop) {
  df <- df [, ! names(df) %in% drop, drop = FALSE]
  df
}

res <- microbenchmark(
  re_assign(dtest,drop_vec),
  null_assign(dtest,drop_vec),
  subset(dtest, select = ! names(dtest) %in% drop_vec),
  subset(dtest, select = names(dtest)[! names(dtest) %in% drop_vec]),
  subset(dtest, select = -c(x, y) ),
times=5000)

plt <- ggplot2::qplot(y=time, data=res[res$time < 1000000,], colour=expr)
plt <- plt + ggplot2::scale_y_log10() + 
  ggplot2::labs(colour = "expression") + 
  ggplot2::scale_color_discrete(labels = c("re_assign", "null_assign", "subset_bool", "subset_names", "subset_drop")) +
  ggplot2::theme_bw(base_size=16)
print(plt)

2013-07-22 20:06:33

这里有一个快速的解决方案。假设，你有一个数据帧X，有三列a, B和C:

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6))
> X
  A B C
1 1 3 5
2 2 4 6

如果我想删除一个列，比如B，只需在colnames上使用grep来获得列索引，然后可以使用它来省略该列。

> X<-X[,-grep("B",colnames(X))]

你的新X数据帧看起来如下所示(这次没有B列):

grep的美妙之处在于您可以指定多个匹配正则表达式的列。如果X有五列(A,B,C,D,E):

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,8),E=c(9,10))
> X
  A B C D  E
1 1 3 5 7  9
2 2 4 6 8 10

去掉B列和D列:

> X<-X[,-grep("B|D",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

编辑:考虑到Matthew Lundberg在下面的评论中提出的grepl建议:

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,8),E=c(9,10))
> X
  A B C D  E
1 1 3 5 7  9
2 2 4 6 8 10
> X<-X[,!grepl("B|D",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

如果我试图删除一个不存在的列，什么都不会发生:

> X<-X[,!grepl("G",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

2015-12-25 01:10:20

如果你确切地知道原始数据框架df中的列的名称:

cols_to_drop <- c("A", "B", "C")
df_clean = df[,!(names(df) %in% cols_to_drop)]

Src: https://www.listendata.com/2015/06/r-keep-drop-columns-from-data-frame.html

2021-11-11 15:29:05

我不能在评论中回答你的问题，因为我的声誉评分很低。

下面的代码将给出一个错误，因为粘贴函数返回一个字符串

for(i in 1:length(var.out)) {
   paste("data$", var.out[i], sep="") <- NULL
}

这里有一个可能的解决方案:

for(i in 1:length(var.out)) {

  text_to_source <- paste0 ("data$", var.out[i], "<- NULL") # Write a line of your
                                                  # code like a character string
  eval (parse (text=text_to_source)) # Source a text that contains a code
}

或者直接做:

for(i in 1:length(var.out)) {
  data[var.out[i]] <- NULL
}

2014-04-07 13:09:34

df2 <- df[!names(df) %in% c("c1", "c2")]

2015-12-03 05:59:36

如何在数据帧中按名称删除列

推荐文章

最新文章

标签