有可能行绑定两个没有相同列集的数据帧吗?我希望保留绑定后不匹配的列。


当前回答

如果df1中的列是df2中的列的子集(通过列名):

df3 <- rbind(df1, df2[, names(df1)])

其他回答

也许我完全误解了您的问题,但是“我希望保留绑定后不匹配的列”使我认为您正在寻找类似于SQL查询的左连接或右连接。R具有合并函数,允许您指定左连接、右连接或内部连接,类似于SQL中的连接表。

关于这个主题已经有一个很好的问题和答案:如何连接(合并)数据帧(内部、外部、左、右)?

如果df1中的列是df2中的列的子集(通过列名):

df3 <- rbind(df1, df2[, names(df1)])

大多数基本R答案解决的情况是,只有一个data.frame有额外的列,或者结果data.frame有这些列的交集。由于OP写道,我希望在绑定后保留不匹配的列,因此使用基本R方法来解决这个问题的答案可能值得发布。

下面,我将介绍两个基本R方法:一个改变原始data.frames,另一个不改变。此外,我还提供了一种将非破坏性方法推广到两个以上的数据帧的方法。

首先,让我们获取一些示例数据。

# sample data, variable c is in df1, variable d is in df2
df1 = data.frame(a=1:5, b=6:10, d=month.name[1:5])
df2 = data.frame(a=6:10, b=16:20, c = letters[8:12])

两个数据帧,改变原始数据 为了在rbind中保留这两个data.frames中的所有列(并允许该函数正常工作而不会导致错误),您需要在每个data.frame中添加NA列,并使用setdiff填充适当的缺失名称。

# fill in non-overlapping columns with NAs
df1[setdiff(names(df2), names(df1))] <- NA
df2[setdiff(names(df1), names(df2))] <- NA

现在,rbind-em

rbind(df1, df2)
    a  b        d    c
1   1  6  January <NA>
2   2  7 February <NA>
3   3  8    March <NA>
4   4  9    April <NA>
5   5 10      May <NA>
6   6 16     <NA>    h
7   7 17     <NA>    i
8   8 18     <NA>    j
9   9 19     <NA>    k
10 10 20     <NA>    l

注意,前两行更改了原始data.frames, df1和df2,将完整的列添加到这两行。


两帧数据,不要改变原始数据 为了保持原始的data.frames不变,首先遍历不同的名称,返回一个命名的na向量,这些na与data.frame使用c连接到一个列表中。然后data.frame将结果转换为rbind的适当data.frame。

rbind(
  data.frame(c(df1, sapply(setdiff(names(df2), names(df1)), function(x) NA))),
  data.frame(c(df2, sapply(setdiff(names(df1), names(df2)), function(x) NA)))
)

许多数据帧不会改变原始数据 在有两个以上data.frames的情况下,可以执行以下操作。

# put data.frames into list (dfs named df1, df2, df3, etc)
mydflist <- mget(ls(pattern="df\\d+"))
# get all variable names
allNms <- unique(unlist(lapply(mydflist, names)))

# put em all together
do.call(rbind,
        lapply(mydflist,
               function(x) data.frame(c(x, sapply(setdiff(allNms, names(x)),
                                                  function(y) NA)))))

也许看不到原始data。frames的行名会更好一些?然后这样做。

do.call(rbind,
        c(lapply(mydflist,
                 function(x) data.frame(c(x, sapply(setdiff(allNms, names(x)),
                                                    function(y) NA)))),
          make.row.names=FALSE))

data.table的替代方案:

library(data.table)
df1 = data.frame(a = c(1:5), b = c(6:10))
df2 = data.frame(a = c(11:15), b = c(16:20), c = LETTERS[1:5])
rbindlist(list(df1, df2), fill = TRUE)

Rbind也可以在数据中工作。表中只要对象都转换为数据。表对象,所以

rbind(setDT(df1), setDT(df2), fill=TRUE)

也适用于这种情况。当您有几个数据时,这可能更可取。表,而不想构造列表。

您可以在gtools包中使用smartbind。

例子:

library(gtools)
df1 <- data.frame(a = c(1:5), b = c(6:10))
df2 <- data.frame(a = c(11:15), b = c(16:20), c = LETTERS[1:5])
smartbind(df1, df2)
# result
     a  b    c
1.1  1  6 <NA>
1.2  2  7 <NA>
1.3  3  8 <NA>
1.4  4  9 <NA>
1.5  5 10 <NA>
2.1 11 16    A
2.2 12 17    B
2.3 13 18    C
2.4 14 19    D
2.5 15 20    E