在子集数据帧中删除未使用的因子水平

我有一个包含因子的数据帧。当我使用子集或其他索引函数创建这个数据帧的子集时，就创建了一个新的数据帧。然而，因子变量保留其所有原始水平，即使它们不存在于新的数据框架中。

这在绘制面图或使用依赖于因子级别的函数时会导致问题。

在新的数据框架中从一个因子中移除级别最简洁的方法是什么?

这里有一个例子:

df <- data.frame(letters=letters[1:5],
                    numbers=seq(1:5))

levels(df$letters)
## [1] "a" "b" "c" "d" "e"

subdf <- subset(df, numbers <= 3)
##   letters numbers
## 1       a       1
## 2       b       2
## 3       c       3    

# all levels are still there!
levels(subdf$letters)
## [1] "a" "b" "c" "d" "e"

当前回答

非常有趣的话题，我特别喜欢因子子选择的想法。我以前遇到过类似的问题，我只是转换成字符，然后再转换回因子。

   df <- data.frame(letters=letters[1:5],numbers=seq(1:5))
   levels(df$letters)
   ## [1] "a" "b" "c" "d" "e"
   subdf <- df[df$numbers <= 3]
   subdf$letters<-factor(as.character(subdf$letters))

2015-05-25 12:08:08

其他回答

这里有一种方法

varFactor <- factor(letters[1:15])
varFactor <- varFactor[1:5]
varFactor <- varFactor[drop=T]

2014-01-31 03:25:56

这是令人讨厌的。我通常是这样做的，以避免加载其他包:

levels(subdf$letters)<-c("a","b","c",NA,NA)

这就得到了:

> subdf$letters
[1] a b c
Levels: a b c

注意，新级别将取代旧级别中占据其索引的任何内容(subdf$letters)，因此如下所示:

levels(subdf$letters)<-c(NA,"a","c",NA,"b")

不能工作。

当你有很多关卡时，这显然不太理想，但对于少数关卡来说，这是快速而简单的。

2009-07-28 18:44:32

如果你不想要这种行为，不要使用因子，而是使用字符向量。我觉得这比事后修补要好得多。在用read加载数据之前，请尝试以下操作。表或read.csv:

options(stringsAsFactors = FALSE)

缺点是你只能按字母排序。(重新排序是你的朋友情节)

2009-07-28 23:53:43

另一种方法，但使用dplyr

library(dplyr)
subdf <- df %>% filter(numbers <= 3) %>% droplevels()
str(subdf)

编辑:

同样有效!感谢agenis

subdf <- df %>% filter(numbers <= 3) %>% droplevels
levels(subdf$letters)

2015-07-15 11:14:54

查看R源代码中的droplevels方法代码，您可以看到它包装为因子函数。这意味着你基本上可以用因子函数重新创建列。下面是数据。从所有因子列中删除级别的表方式。

library(data.table)
dt = data.table(letters=factor(letters[1:5]), numbers=seq(1:5))
levels(dt$letters)
#[1] "a" "b" "c" "d" "e"
subdt = dt[numbers <= 3]
levels(subdt$letters)
#[1] "a" "b" "c" "d" "e"

upd.cols = sapply(subdt, is.factor)
subdt[, names(subdt)[upd.cols] := lapply(.SD, factor), .SDcols = upd.cols]
levels(subdt$letters)
#[1] "a" "b" "c"

2015-12-09 14:56:58

在子集数据帧中删除未使用的因子水平

推荐文章

最新文章

标签