删除data.frame中全部或部分NAs(缺失值)的行

我想删除这个数据帧中的行:

a)在所有列中包含NAs。下面是我的示例数据帧。

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   NA
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   NA   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

基本上，我想获得如下所示的数据帧。

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

b)只在某些列中包含NAs，所以我也可以得到这个结果:

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

当前回答

假设dat作为您的数据帧，预期的输出可以使用

1. rowsums

> dat[!rowSums((is.na(dat))),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

2.拉普兰人

> dat[!Reduce('|',lapply(dat,is.na)),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

2017-03-15 16:51:32

其他回答

如果您希望更好地控制如何判定行无效，另一个选项是

final <- final[!(is.na(final$rnor)) | !(is.na(rawdata$cfam)),]

使用上述方法，得到:

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   2
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   2   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

就变成:

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   2
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   2   NA
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

.．.其中只有第5行被删除，因为它是唯一包含rnor和cfam的NAs的行。然后可以更改布尔逻辑以适应特定的需求。

2013-11-05 06:30:24

我更喜欢用下面的方法来检查行中是否包含NAs:

row.has.na <- apply(final, 1, function(x){any(is.na(x))})

这将返回逻辑向量，其中的值表示一行中是否有NA。你可以使用它来查看你需要删除多少行:

sum(row.has.na)

并最终放弃它们

final.filtered <- final[!row.has.na,]

对于过滤具有特定部分NAs的行，它变得有点棘手(例如，您可以将'final[，5:6]'输入到'apply')。一般来说，Joris Meys的解决方案似乎更优雅。

2011-02-02 21:58:33

我们也可以用子集函数。

finalData<-subset(data,!(is.na(data["mmul"]) | is.na(data["rnor"])))

这将只给出那些在mmul和rnor中都没有NA的行

2014-11-11 22:15:33

还要检查complete。例:

> final[complete.cases(final), ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
6 ENSG00000221312    0    1    2    3    2

na。省略是更好的只是删除所有的NA。完成了。case允许部分选择，只包括数据框架的某些列:

> final[complete.cases(final[ , 5:6]),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

你的解决办法行不通。如果你坚持使用的话。不，那你就得这样做:

> final[rowSums(is.na(final[ , 5:6])) == 0, ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

但是使用complete。case更清晰，也更快。

2011-02-01 12:21:42

如果你只想删除所有列中有NAs的行，下面是解决方案:

df %>%
    filter(!if_all(everything(), ~  is.na(.)))

2022-11-27 18:11:38

删除data.frame中全部或部分NAs(缺失值)的行

推荐文章

最新文章

标签