在子集数据帧中删除未使用的因子水平

我有一个包含因子的数据帧。当我使用子集或其他索引函数创建这个数据帧的子集时，就创建了一个新的数据帧。然而，因子变量保留其所有原始水平，即使它们不存在于新的数据框架中。

这在绘制面图或使用依赖于因子级别的函数时会导致问题。

在新的数据框架中从一个因子中移除级别最简洁的方法是什么?

这里有一个例子:

df <- data.frame(letters=letters[1:5],
                    numbers=seq(1:5))

levels(df$letters)
## [1] "a" "b" "c" "d" "e"

subdf <- subset(df, numbers <= 3)
##   letters numbers
## 1       a       1
## 2       b       2
## 3       c       3    

# all levels are still there!
levels(subdf$letters)
## [1] "a" "b" "c" "d" "e"

当前回答

一个真正的droplevels函数是collapse::fdroplevels，它比droplevels快得多，并且不执行任何不必要的匹配或数值制表。例子:

library(collapse)
library(microbenchmark)

# wlddev data supplied in collapse, iso3c is a factor
data <- fsubset(wlddev, iso3c %!in% "USA")

microbenchmark(fdroplevels(data), droplevels(data), unit = "relative")
## Unit: relative
##               expr  min       lq     mean   median       uq      max neval cld
##  fdroplevels(data)  1.0  1.00000  1.00000  1.00000  1.00000  1.00000   100  a 
##   droplevels(data) 30.2 29.15873 24.54175 24.86147 22.11553 14.23274   100   b

2021-01-09 08:45:18

其他回答

已经尝试了这里的大多数例子，如果不是全部，但似乎没有一个在我的情况下工作。经过相当一段时间的斗争，我尝试使用as.character()在因子列上将其更改为带有字符串的col，这似乎工作得很好。

不确定性能问题。

2019-09-02 03:20:17

为了完整起见，现在在forcats包http://forcats.tidyverse.org/reference/fct_drop.html中也有fct_drop。

它与液滴处理NA的方式不同:

f <- factor(c("a", "b", NA), exclude = NULL)

droplevels(f)
# [1] a    b    <NA>
# Levels: a b <NA>

forcats::fct_drop(f)
# [1] a    b    <NA>
# Levels: a b

2017-06-12 09:44:29

下面是另一种方法，我认为它相当于因子(..)方法:

> df <- data.frame(let=letters[1:5], num=1:5)
> subdf <- df[df$num <= 3, ]

> subdf$let <- subdf$let[ , drop=TRUE]

> levels(subdf$let)
[1] "a" "b" "c"

2009-07-29 03:40:37

如果你不想要这种行为，不要使用因子，而是使用字符向量。我觉得这比事后修补要好得多。在用read加载数据之前，请尝试以下操作。表或read.csv:

options(stringsAsFactors = FALSE)

缺点是你只能按字母排序。(重新排序是你的朋友情节)

2009-07-28 23:53:43

你所要做的就是在子集设置后再次应用factor()到你的变量:

> subdf$letters
[1] a b c
Levels: a b c d e
subdf$letters <- factor(subdf$letters)
> subdf$letters
[1] a b c
Levels: a b c

EDIT

因子页的例子如下:

factor(ff)      # drops the levels that do not occur

要从数据框架中的所有因子列中删除级别，您可以使用:

subdf <- subset(df, numbers <= 3)
subdf[] <- lapply(subdf, function(x) if(is.factor(x)) factor(x) else x)

2009-07-28 22:41:31

在子集数据帧中删除未使用的因子水平

推荐文章

最新文章

标签