当两个数据帧具有不同的列集时，按行组合(rbind)

有可能行绑定两个没有相同列集的数据帧吗?我希望保留绑定后不匹配的列。

当前回答

您可以将它们插入到原始数据库(db1)的末尾，并添加第二个数据库的行数。db2中不包括的列将显示NA值。

db1[nrow（db1）+1：nrow（db1）+nrow（db2）， names（db2）] <- db2

2022-05-25 21:37:01

其他回答

您也可以使用sjmisc::add_rows()，它使用dplyr::bind_rows()，但与bind_rows()不同，add_rows()保留属性，因此对带标签的数据很有用。

请参阅以下带有标记数据集的示例。如果数据被标记，frq()函数打印带有值标签的频率表。

library(sjmisc)
library(dplyr)

data(efc)
# select two subsets, with some identical and else different columns
x1 <- efc %>% select(1:5) %>% slice(1:10)
x2 <- efc %>% select(3:7) %>% slice(11:20)

str(x1)
#> 'data.frame':    10 obs. of  5 variables:
#>  $ c12hour : num  16 148 70 168 168 16 161 110 28 40
#>   ..- attr(*, "label")= chr "average number of hours of care per week"
#>  $ e15relat: num  2 2 1 1 2 2 1 4 2 2
#>   ..- attr(*, "label")= chr "relationship to elder"
#>   ..- attr(*, "labels")= Named num  1 2 3 4 5 6 7 8
#>   .. ..- attr(*, "names")= chr  "spouse/partner" "child" "sibling" "daughter or son -in-law" ...
#>  $ e16sex  : num  2 2 2 2 2 2 1 2 2 2
#>   ..- attr(*, "label")= chr "elder's gender"
#>   ..- attr(*, "labels")= Named num  1 2
#>   .. ..- attr(*, "names")= chr  "male" "female"
#>  $ e17age  : num  83 88 82 67 84 85 74 87 79 83
#>   ..- attr(*, "label")= chr "elder' age"
#>  $ e42dep  : num  3 3 3 4 4 4 4 4 4 4
#>   ..- attr(*, "label")= chr "elder's dependency"
#>   ..- attr(*, "labels")= Named num  1 2 3 4
#>   .. ..- attr(*, "names")= chr  "independent" "slightly dependent" "moderately dependent" "severely dependent"

bind_rows(x1, x1) %>% frq(e42dep)
#> 
#> # e42dep <numeric> 
#> # total N=20  valid N=20  mean=3.70  sd=0.47
#>  
#>   val frq raw.prc valid.prc cum.prc
#>     3   6      30        30      30
#>     4  14      70        70     100
#>  <NA>   0       0        NA      NA

add_rows(x1, x1) %>% frq(e42dep)
#> 
#> # elder's dependency (e42dep) <numeric> 
#> # total N=20  valid N=20  mean=3.70  sd=0.47
#>  
#>  val                label frq raw.prc valid.prc cum.prc
#>    1          independent   0       0         0       0
#>    2   slightly dependent   0       0         0       0
#>    3 moderately dependent   6      30        30      30
#>    4   severely dependent  14      70        70     100
#>   NA                   NA   0       0        NA      NA

2018-09-24 11:28:32

大多数基本R答案解决的情况是，只有一个data.frame有额外的列，或者结果data.frame有这些列的交集。由于OP写道，我希望在绑定后保留不匹配的列，因此使用基本R方法来解决这个问题的答案可能值得发布。

下面，我将介绍两个基本R方法:一个改变原始data.frames，另一个不改变。此外，我还提供了一种将非破坏性方法推广到两个以上的数据帧的方法。

首先，让我们获取一些示例数据。

# sample data, variable c is in df1, variable d is in df2
df1 = data.frame(a=1:5, b=6:10, d=month.name[1:5])
df2 = data.frame(a=6:10, b=16:20, c = letters[8:12])

两个数据帧，改变原始数据为了在rbind中保留这两个data.frames中的所有列(并允许该函数正常工作而不会导致错误)，您需要在每个data.frame中添加NA列，并使用setdiff填充适当的缺失名称。

# fill in non-overlapping columns with NAs
df1[setdiff(names(df2), names(df1))] <- NA
df2[setdiff(names(df1), names(df2))] <- NA

现在,rbind-em

rbind(df1, df2)
    a  b        d    c
1   1  6  January <NA>
2   2  7 February <NA>
3   3  8    March <NA>
4   4  9    April <NA>
5   5 10      May <NA>
6   6 16     <NA>    h
7   7 17     <NA>    i
8   8 18     <NA>    j
9   9 19     <NA>    k
10 10 20     <NA>    l

注意，前两行更改了原始data.frames, df1和df2，将完整的列添加到这两行。

两帧数据，不要改变原始数据为了保持原始的data.frames不变，首先遍历不同的名称，返回一个命名的na向量，这些na与data.frame使用c连接到一个列表中。然后data.frame将结果转换为rbind的适当data.frame。

rbind(
  data.frame(c(df1, sapply(setdiff(names(df2), names(df1)), function(x) NA))),
  data.frame(c(df2, sapply(setdiff(names(df1), names(df2)), function(x) NA)))
)

许多数据帧不会改变原始数据在有两个以上data.frames的情况下，可以执行以下操作。

# put data.frames into list (dfs named df1, df2, df3, etc)
mydflist <- mget(ls(pattern="df\\d+"))
# get all variable names
allNms <- unique(unlist(lapply(mydflist, names)))

# put em all together
do.call(rbind,
        lapply(mydflist,
               function(x) data.frame(c(x, sapply(setdiff(allNms, names(x)),
                                                  function(y) NA)))))

也许看不到原始data。frames的行名会更好一些?然后这样做。

do.call(rbind,
        c(lapply(mydflist,
                 function(x) data.frame(c(x, sapply(setdiff(allNms, names(x)),
                                                    function(y) NA)))),
          make.row.names=FALSE))

2017-10-08 20:16:44

rbind.ordered=function(x,y){

  diffCol = setdiff(colnames(x),colnames(y))
  if (length(diffCol)>0){
    cols=colnames(y)
    for (i in 1:length(diffCol)) y=cbind(y,NA)
    colnames(y)=c(cols,diffCol)
  }

  diffCol = setdiff(colnames(y),colnames(x))
  if (length(diffCol)>0){
    cols=colnames(x)
    for (i in 1:length(diffCol)) x=cbind(x,NA)
    colnames(x)=c(cols,diffCol)
  }
  return(rbind(x, y[, colnames(x)]))
}

2012-07-24 11:21:11

也许我完全误解了您的问题，但是“我希望保留绑定后不匹配的列”使我认为您正在寻找类似于SQL查询的左连接或右连接。R具有合并函数，允许您指定左连接、右连接或内部连接，类似于SQL中的连接表。

关于这个主题已经有一个很好的问题和答案:如何连接(合并)数据帧(内部、外部、左、右)?

2010-08-04 13:13:13

您可以将它们插入到原始数据库(db1)的末尾，并添加第二个数据库的行数。db2中不包括的列将显示NA值。

db1[nrow（db1）+1：nrow（db1）+nrow（db2）， names（db2）] <- db2

2022-05-25 21:37:01

当两个数据帧具有不同的列集时，按行组合(rbind)

推荐文章

最新文章

标签