删除data.frame中全部或部分NAs(缺失值)的行

我想删除这个数据帧中的行:

a)在所有列中包含NAs。下面是我的示例数据帧。

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   NA
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   NA   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

基本上，我想获得如下所示的数据帧。

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

b)只在某些列中包含NAs，所以我也可以得到这个结果:

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

当前回答

Tidyr有一个新函数drop_na:

library(tidyr)
df %>% drop_na()
#              gene hsap mmul mmus rnor cfam
# 2 ENSG00000199674    0    2    2    2    2
# 6 ENSG00000221312    0    1    2    3    2
df %>% drop_na(rnor, cfam)
#              gene hsap mmul mmus rnor cfam
# 2 ENSG00000199674    0    2    2    2    2
# 4 ENSG00000207604    0   NA   NA    1    2
# 6 ENSG00000221312    0    1    2    3    2

2016-08-16 08:49:23

其他回答

我的猜测是，这个问题可以用这样一种更优雅的方式解决:

  m <- matrix(1:25, ncol = 5)
  m[c(1, 6, 13, 25)] <- NA
  df <- data.frame(m)
  library(dplyr) 
  df %>%
  filter_all(any_vars(is.na(.)))
  #>   X1 X2 X3 X4 X5
  #> 1 NA NA 11 16 21
  #> 2  3  8 NA 18 23
  #> 3  5 10 15 20 NA

2018-05-08 20:35:47

如果希望控制每行有多少个NAs是有效的，请尝试此功能。对于许多调查数据集，过多的空白问题回答可能会破坏结果。所以它们在某个阈值之后就会被删除。这个函数允许你在删除行之前选择有多少个NAs:

delete.na <- function(DF, n=0) {
  DF[rowSums(is.na(DF)) <= n,]
}

默认情况下，它将消除所有NAs:

delete.na(final)
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
6 ENSG00000221312    0    1    2    3    2

或指定允许的最大NAs数量:

delete.na(final, 2)
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

2015-05-26 14:49:39

Dplyr 1.0.4引入了两个配套的过滤函数:if_any()和if_all()。在这种情况下，if_all()伴随函数将特别有用:

a)删除所有列中包含NAs的行

df %>% 
  filter(if_all(everything(), ~ !is.na(.x)))

这一行将只保留那些列中没有NAs的行。

b)删除仅在某些列中包含NAs的行

cols_to_check = c("rnor", "cfam")

df %>% 
  filter(if_all(cols_to_check, ~ !is.na(.x)))

这一行将检查任何指定的列(cols_to_check)是否有NAs，并只保留没有NAs的那些行。

2021-06-29 14:38:01

关于你的第一个问题，我有一个我很熟悉的代码来摆脱所有NAs。感谢@Gregor让它变得更简单。

final[!(rowSums(is.na(final))),]

对于第二个问题，代码只是之前解决方案的一个替换。

final[as.logical((rowSums(is.na(final))-5)),]

注意-5是数据中的列数。这将消除具有所有NAs的行，因为rowsum加起来等于5，并且它们在减法后变为零。这一次，作为。逻辑是必要的。

2016-02-09 17:52:51

使用dplyr包，我们可以过滤NA如下:

dplyr::filter(df,  !is.na(columnname))

2017-04-12 05:44:40

删除data.frame中全部或部分NAs(缺失值)的行

推荐文章

最新文章

标签