删除data.frame中全部或部分NAs(缺失值)的行

我想删除这个数据帧中的行:

a)在所有列中包含NAs。下面是我的示例数据帧。

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   NA
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   NA   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

基本上，我想获得如下所示的数据帧。

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

b)只在某些列中包含NAs，所以我也可以得到这个结果:

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

当前回答

delete.dirt <- function(DF, dart=c('NA')) {
  dirty_rows <- apply(DF, 1, function(r) !any(r %in% dart))
  DF <- DF[dirty_rows, ]
}

mydata <- delete.dirt(mydata)

上面的函数删除数据帧中任何列中有'NA'的所有行，并返回结果数据。如果你想检查多个值，如NA和?将函数参数中的dart=c('NA')更改为dart=c('NA'， '?')

2018-02-22 22:19:46

其他回答

尝试na.omit (your.data.frame)。至于第二个问题，试着把它作为另一个问题发布(为了清晰)。

2011-02-01 12:00:44

还要检查complete。例:

> final[complete.cases(final), ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
6 ENSG00000221312    0    1    2    3    2

na。省略是更好的只是删除所有的NA。完成了。case允许部分选择，只包括数据框架的某些列:

> final[complete.cases(final[ , 5:6]),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

你的解决办法行不通。如果你坚持使用的话。不，那你就得这样做:

> final[rowSums(is.na(final[ , 5:6])) == 0, ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

但是使用complete。case更清晰，也更快。

2011-02-01 12:21:42

使用dplyr包，我们可以过滤NA如下:

dplyr::filter(df,  !is.na(columnname))

2017-04-12 05:44:40

我更喜欢用下面的方法来检查行中是否包含NAs:

row.has.na <- apply(final, 1, function(x){any(is.na(x))})

这将返回逻辑向量，其中的值表示一行中是否有NA。你可以使用它来查看你需要删除多少行:

sum(row.has.na)

并最终放弃它们

final.filtered <- final[!row.has.na,]

对于过滤具有特定部分NAs的行，它变得有点棘手(例如，您可以将'final[，5:6]'输入到'apply')。一般来说，Joris Meys的解决方案似乎更优雅。

2011-02-02 21:58:33

如果您希望更好地控制如何判定行无效，另一个选项是

final <- final[!(is.na(final$rnor)) | !(is.na(rawdata$cfam)),]

使用上述方法，得到:

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   2
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   2   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

就变成:

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   2
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   2   NA
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

.．.其中只有第5行被删除，因为它是唯一包含rnor和cfam的NAs的行。然后可以更改布尔逻辑以适应特定的需求。

2013-11-05 06:30:24

删除data.frame中全部或部分NAs(缺失值)的行

推荐文章

最新文章

标签