将data.frame列从因子转换为字符

我有一个数据帧。我们就叫他鲍勃吧:

> head(bob)
                 phenotype                         exclusion
GSM399350 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-
GSM399351 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-
GSM399352 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-
GSM399353 3- 4- 8- 25+ 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-
GSM399354 3- 4- 8- 25+ 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-
GSM399355 3- 4- 8- 25+ 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-

我想连接这个数据帧的行(这将是另一个问题)。但看:

> class(bob$phenotype)
[1] "factor"

Bob的列是因子。举个例子:

> as.character(head(bob))
[1] "c(3, 3, 3, 6, 6, 6)"       "c(3, 3, 3, 3, 3, 3)"      
[3] "c(29, 29, 29, 30, 30, 30)"

我不太明白这一点，但我猜这些是进入鲍勃(卡拉克塔克斯国王的法庭)的列的因子水平的指数?不是我需要的。

奇怪的是，我可以徒手浏览bob的列

bob$phenotype <- as.character(bob$phenotype)

这很好。并且，在一些输入之后，我可以得到一个data.frame，它的列是字符而不是因子。我的问题是:我如何自动地做到这一点?我如何将一个data.frame与因子列转换为一个data.frame与字符列，而不必手动遍历每一列?

附加问题:为什么手动方法有效?

当前回答

仅替换因素:

i <- sapply(bob, is.factor)
bob[i] <- lapply(bob[i], as.character)

在0.5.0版的dplyr包中引入了新的函数mutate_if:

library(dplyr)
bob %>% mutate_if(is.factor, as.character) -> bob

.．.在1.0.0版本中被across取代:

library(dplyr)
bob %>% mutate(across(where(is.factor), as.character)) -> bob

RStudio中的包purrr提供了另一种选择:

library(purrr)
bob %>% modify_if(is.factor, as.character) -> bob

2010-05-17 22:08:48

其他回答

只是跟着马特和德克。如果你想在不改变全局选项的情况下重新创建现有的数据帧，你可以用apply语句重新创建它:

bob <- data.frame(lapply(bob, as.character), stringsAsFactors=FALSE)

这将把所有变量转换为“character”类，如果你只想转换因子，请参阅下面Marek的解决方案。

正如@hadley指出的那样，以下内容更简洁。

bob[] <- lapply(bob, as.character)

在这两种情况下，lapply输出一个列表;然而，由于R的神奇属性，在第二种情况下使用[]保留了bob对象的data.frame类，从而消除了使用as.data.frame转换回data.frame的需要，并使用参数stringsAsFactors = FALSE。

2010-05-17 17:21:06

dplyr 1.0.0版引入了新函数“across”。新函数将取代作用域变量(_if， _at， _all)。这是官方文件

library(dplyr)
bob <- bob %>% 
       mutate(across(where(is.factor), as.character))

2020-08-13 13:37:55

或者你可以尝试transform:

newbob <- transform(bob, phenotype = as.character(phenotype))

只要确保把你想转换为字符的每一个因素。

或者你可以这样做，一击杀光所有害虫:

newbob_char <- as.data.frame(lapply(bob[sapply(bob, is.factor)], as.character), stringsAsFactors = FALSE)
newbob_rest <- bob[!(sapply(bob, is.factor))]
newbob <- cbind(newbob_char, newbob_rest)

像这样把数据塞进代码中并不是一个好主意，我可以单独做spapply部分(实际上，这样做要容易得多)，但你明白了…我还没有检查代码，因为我不在家，所以我希望它能工作!=)

然而，这种方法有一个缺点……之后你必须重新组织列，而使用transform你可以做任何你想做的事情，但代价是“行人风格的代码编写”…

所以…=)

2010-05-17 17:49:17

这对我来说很管用——我终于想出了一句话

df <- as.data.frame(lapply(df,function (y) if(class(y)=="factor" ) as.character(y) else y),stringsAsFactors=F)

2014-10-24 16:00:22

这可以将所有内容转换为字符，然后将数字转换为数字:

makenumcols<-function(df){
  df<-as.data.frame(df)
  df[] <- lapply(df, as.character)
  cond <- apply(df, 2, function(x) {
    x <- x[!is.na(x)]
    all(suppressWarnings(!is.na(as.numeric(x))))
  })
  numeric_cols <- names(df)[cond]
  df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
  return(df)
}

改编自:自动获取excel表的列类型

2019-08-27 19:23:06

将data.frame列从因子转换为字符

推荐文章

最新文章

标签