将data.frame列从因子转换为字符

我有一个数据帧。我们就叫他鲍勃吧:

> head(bob)
                 phenotype                         exclusion
GSM399350 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-
GSM399351 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-
GSM399352 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-
GSM399353 3- 4- 8- 25+ 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-
GSM399354 3- 4- 8- 25+ 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-
GSM399355 3- 4- 8- 25+ 44+ 11b- 11c- 19- NK1.1- Gr1- TER119-

我想连接这个数据帧的行(这将是另一个问题)。但看:

> class(bob$phenotype)
[1] "factor"

Bob的列是因子。举个例子:

> as.character(head(bob))
[1] "c(3, 3, 3, 6, 6, 6)"       "c(3, 3, 3, 3, 3, 3)"      
[3] "c(29, 29, 29, 30, 30, 30)"

我不太明白这一点，但我猜这些是进入鲍勃(卡拉克塔克斯国王的法庭)的列的因子水平的指数?不是我需要的。

奇怪的是，我可以徒手浏览bob的列

bob$phenotype <- as.character(bob$phenotype)

这很好。并且，在一些输入之后，我可以得到一个data.frame，它的列是字符而不是因子。我的问题是:我如何自动地做到这一点?我如何将一个data.frame与因子列转换为一个data.frame与字符列，而不必手动遍历每一列?

附加问题:为什么手动方法有效?

当前回答

如果您了解因子是如何存储的，就可以避免使用基于应用程序的函数来实现这一点。这并不是说应用解决方案不能很好地工作。

因素的结构是与“级别”列表相关联的数字索引。如果将因数转换为数字，就可以看到这一点。所以:

> fact <- as.factor(c("a","b","a","d")
> fact
[1] a b a d
Levels: a b d

> as.numeric(fact)
[1] 1 2 1 3

最后一行返回的数字对应于因子的级别。

> levels(fact)
[1] "a" "b" "d"

注意，levels()返回一个字符数组。你可以使用这个事实轻松简洁地将因数转换为字符串或数字，如下所示:

> fact_character <- levels(fact)[as.numeric(fact)]
> fact_character
[1] "a" "b" "a" "d"

这也适用于数值，只要你用as.numeric()包装你的表达式。

> num_fact <- factor(c(1,2,3,6,5,4))
> num_fact
[1] 1 2 3 6 5 4
Levels: 1 2 3 4 5 6
> num_num <- as.numeric(levels(num_fact)[as.numeric(num_fact)])
> num_num
[1] 1 2 3 6 5 4

2013-03-21 17:40:06

其他回答

如果你想要一个新的数据帧bobc，其中bobf中的每个因子向量都转换为字符向量，试试这个:

bobc <- rapply(bobf, as.character, classes="factor", how="replace")

如果希望将其转换回来，可以创建一个逻辑向量，其中的列是因子，并使用该逻辑向量选择性地应用因子

f <- sapply(bobf, class) == "factor"
bobc[,f] <- lapply(bobc[,f], factor)

2012-01-05 06:04:58

这可以将所有内容转换为字符，然后将数字转换为数字:

makenumcols<-function(df){
  df<-as.data.frame(df)
  df[] <- lapply(df, as.character)
  cond <- apply(df, 2, function(x) {
    x <- x[!is.na(x)]
    all(suppressWarnings(!is.na(as.numeric(x))))
  })
  numeric_cols <- names(df)[cond]
  df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
  return(df)
}

改编自:自动获取excel表的列类型

2019-08-27 19:23:06

更新:这里有一个不起作用的例子。我认为它会，但我认为stringsAsFactors选项只适用于字符串-它离开因子单独。

试试这个:

bob2 <- data.frame(bob, stringsAsFactors = FALSE)

一般来说，当你遇到应该是字符的因子的问题时，总会有一个stringsAsFactors设置来帮助你(包括一个全局设置)。

2010-05-17 17:00:21

全局选项

stringsAsFactors: data.frame和read.table参数的默认设置。

可能是你想在你的启动文件(例如~/. rprofile)中设置为FALSE。请参阅帮助(选项)。

2010-05-17 17:02:36