我如何与熊猫执行(INNER|(LEFT|RIGHT|FULL)OUTER)JOIN?如何在合并后为缺少的行添加NaN?合并后如何消除NaN?我可以在索引上合并吗?如何合并多个DataFrame?与熊猫交叉连接合并参加凹面?使现代化谁什么为什么?

…等等。我看到了这些反复出现的问题,这些问题涉及熊猫合并功能的各个方面。今天,关于合并及其各种用例的大部分信息都分散在数十篇措辞糟糕、无法搜索的帖子中。这里的目的是为后人整理一些更重要的观点。

这篇问答旨在成为一系列关于熊猫常用习惯用法的有用用户指南的下一篇(请参阅这篇关于旋转的文章和这篇关于串联的文章,稍后我将对此进行讨论)。

请注意,这篇文章并不是用来替代文档的,所以请同时阅读!其中一些例子就是从那里得到的。


目录

为了方便访问。

合并基础知识-连接的基本类型(请先阅读)基于索引的联接推广到多个数据帧交叉联接


当前回答

本文将介绍以下主题:

不同条件下的索引合并基于索引的联接的选项:合并、联接、连接合并索引合并一个索引,另一个列有效使用命名索引简化合并语法

回到顶部



基于索引的联接

TL;博士

有几个选项,有些比其他选项更简单,具体取决于用途案例使用left_index和right_index的DataFrame.merge(或使用命名索引的left_on和right_on)支持内部/左侧/右侧/完整一次只能加入两个支持列列、索引列、索引索引联接DataFrame.join(加入索引)支持内部/左侧(默认)/右侧/完整一次可以连接多个DataFrame支持索引索引联接pd.concat(索引上的联接)支持内部/完整(默认)一次可以连接多个DataFrame支持索引索引联接


索引到索引联接

设置和基础知识

import pandas as pd
import numpy as np

np.random.seed([3, 14])
left = pd.DataFrame(data={'value': np.random.randn(4)}, 
                    index=['A', 'B', 'C', 'D'])    
right = pd.DataFrame(data={'value': np.random.randn(4)},  
                     index=['B', 'D', 'E', 'F'])
left.index.name = right.index.name = 'idxkey'

left
           value
idxkey          
A      -0.602923
B      -0.402655
C       0.302329
D      -0.524349

right
 
           value
idxkey          
B       0.543843
D       0.013135
E      -0.326498
F       1.385076

通常,索引上的内部联接如下所示:

left.merge(right, left_index=True, right_index=True)

         value_x   value_y
idxkey                    
B      -0.402655  0.543843
D      -0.524349  0.013135

其他联接遵循类似的语法。

值得注意的替代方案

DataFrame.join默认为索引上的联接。默认情况下,DataFrame.join执行LEFT OUTER join,因此how='inner'在这里是必要的。left.join(right,how='inner',lsuffix='_x',rsuffix='_y')值_x值_yidx键B-0.402655 0.543843D-0.524349 0.013135注意,我需要指定lsuffix和rsuffix参数,否则join将出错:left.join(右)ValueError:列重叠,但未指定后缀:Index(['value'],dtype='object')因为列名相同。如果它们的名称不同,这不会是一个问题。left.rename(columns={‘value‘:‘left value‘}).join(right,how=‘inner‘)左值idx键B-0.402655 0.543843D-0.524349 0.013135pd.concat在索引上连接,可以同时连接两个或多个DataFrame。默认情况下,它执行完全外部联接,因此此处需要how='inner'。。pd.contat([left,right],axis=1,sort=False,join='inner')价值,价值idx键B-0.402655 0.543843D-0.524349 0.013135有关concat的更多信息,请参阅本文。


索引到列连接

要使用左索引、右列索引执行内部联接,您将使用DataFrame.merge组合left_index=True和right_on=。。。。

right2 = right.reset_index().rename({'idxkey' : 'colkey'}, axis=1)
right2
 
  colkey     value
0      B  0.543843
1      D  0.013135
2      E -0.326498
3      F  1.385076

left.merge(right2, left_index=True, right_on='colkey')

    value_x colkey   value_y
0 -0.402655      B  0.543843
1 -0.524349      D  0.013135

其他连接遵循类似的结构。请注意,只有合并才能执行索引到列的连接。如果左侧的索引级别数等于右侧的列数,则可以连接多个列。

join和concat不能混合合并。您需要使用DataFrame.set_index将索引设置为预步骤。


有效使用命名索引[熊猫>=0.23]

如果索引已命名,则从panda>=0.23开始,DataFrame.merge允许您将索引名称指定为on(或根据需要指定left_on和right_on)。

left.merge(right, on='idxkey')

         value_x   value_y
idxkey                    
B      -0.402655  0.543843
D      -0.524349  0.013135

对于前面的合并索引为left、列为right的示例,可以使用索引名为left的left_on:

left.merge(right2, left_on='idxkey', right_on='colkey')

    value_x colkey   value_y
0 -0.402655      B  0.543843
1 -0.524349      D  0.013135


继续阅读

跳转到Pandas Merging 101中的其他主题继续学习:

合并基础知识-连接的基本类型基于索引的联接*推广到多个数据帧交叉联接

*你在这里

其他回答

pd.contat([df0,df1],kwargs)的补充视觉视图。注意,kwargaxis=0或axis=1的含义不像df.min()或df.apply(func)那样直观


我认为你应该在解释中包括这一点,因为这是我经常看到的相关合并,我认为这被称为交叉连接。这是一个合并,当唯一的df不共享任何列时发生,它只是并排合并2个dfs:

设置:

names1 = [{'A':'Jack', 'B':'Jill'}]

names2 = [{'C':'Tommy', 'D':'Tammy'}]

df1=pd.DataFrame(names1)
df2=pd.DataFrame(names2)
df_merged= pd.merge(df1.assign(X=1), df2.assign(X=1), on='X').drop('X', 1)

这将创建一个虚拟X列,在X上合并,然后将其放置以生成

数据_合并:

      A     B      C      D
0  Jack  Jill  Tommy  Tammy

Pandas目前不支持合并语法中的不等式连接;一个选项是使用pyjanator的conditional_join函数-我是这个库的贡献者:

# pip install pyjanitor
import pandas as pd
import janitor 

left.conditional_join(right, ('value', 'value', '>'))

   left           right
    key     value   key     value
0     A  1.764052     D -0.977278
1     A  1.764052     F -0.151357
2     A  1.764052     E  0.950088
3     B  0.400157     D -0.977278
4     B  0.400157     F -0.151357
5     C  0.978738     D -0.977278
6     C  0.978738     F -0.151357
7     C  0.978738     E  0.950088
8     D  2.240893     D -0.977278
9     D  2.240893     F -0.151357
10    D  2.240893     E  0.950088
11    D  2.240893     B  1.867558

left.conditional_join(right, ('value', 'value', '<'))

  left           right
   key     value   key     value
0    A  1.764052     B  1.867558
1    B  0.400157     E  0.950088
2    B  0.400157     B  1.867558
3    C  0.978738     B  1.867558

列作为元组的变量参数传递,每个元组由来自左侧数据帧的列、来自右侧数据帧的行和联接运算符组成,联接运算符可以是(>,<,>=,<=,!=)中的任何一个。在上面的示例中,由于列名重叠,返回了一个MultiIndex列。

就性能而言,这比天真的交叉连接要好:

np.random.seed(0)
dd = pd.DataFrame({'value':np.random.randint(100000, size=50_000)})
df = pd.DataFrame({'start':np.random.randint(100000, size=1_000), 
                   'end':np.random.randint(100000, size=1_000)})

dd.head()

   value
0  68268
1  43567
2  42613
3  45891
4  21243

df.head()

   start    end
0  71915  47005
1  64284  44913
2  13377  96626
3  75823  38673
4  29151    575


%%timeit
out = df.merge(dd, how='cross')
out.loc[(out.start < out.value) & (out.end > out.value)]
5.12 s ± 19 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df.conditional_join(dd, ('start', 'value' ,'<'), ('end', 'value' ,'>'))
280 ms ± 5.56 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df.conditional_join(dd, ('start', 'value' ,'<'), ('end', 'value' ,'>'), use_numba=True)
124 ms ± 12.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

out = df.merge(dd, how='cross')
out = out.loc[(out.start < out.value) & (out.end > out.value)]
A = df.conditional_join(dd, ('start', 'value' ,'<'), ('end', 'value' ,'>'))
columns = A.columns.tolist()
A = A.sort_values(columns, ignore_index = True)
out = out.sort_values(columns, ignore_index = True)

A.equals(out)
True

根据数据大小,当存在等连接时,可以获得更高的性能。在这种情况下,使用panda合并函数,但最终数据帧被延迟,直到计算出非等连接。当存在同等条件时,没有数字支持。让我们看看这里的数据:

import pandas as pd
import numpy as np
import random
import datetime

def random_dt_bw(start_date,end_date):
    days_between = (end_date - start_date).days
    random_num_days = random.randrange(days_between)
    random_dt = start_date + datetime.timedelta(days=random_num_days)
    return random_dt

def generate_data(n=1000):
    items = [f"i_{x}" for x in range(n)]
    start_dates = [random_dt_bw(datetime.date(2020,1,1),datetime.date(2020,9,1)) for x in range(n)]
    end_dates = [x + datetime.timedelta(days=random.randint(1,10)) for x in start_dates]
    
    offerDf = pd.DataFrame({"Item":items,
                            "StartDt":start_dates,
                            "EndDt":end_dates})
    
    transaction_items = [f"i_{random.randint(0,n)}" for x in range(5*n)]
    transaction_dt = [random_dt_bw(datetime.date(2020,1,1),datetime.date(2020,9,1)) for x in range(5*n)]
    sales_amt = [random.randint(0,1000) for x in range(5*n)]
    
    transactionDf = pd.DataFrame({"Item":transaction_items,"TransactionDt":transaction_dt,"Sales":sales_amt})

    return offerDf,transactionDf

offerDf,transactionDf = generate_data(n=100000)


offerDf = (offerDf
           .assign(StartDt = offerDf.StartDt.astype(np.datetime64), 
                   EndDt = offerDf.EndDt.astype(np.datetime64)
                  )
           )

transactionDf = transactionDf.assign(TransactionDt = transactionDf.TransactionDt.astype(np.datetime64))

# you can get more performance when using ints/datetimes
# in the equi join, compared to strings

offerDf = offerDf.assign(Itemr = offerDf.Item.str[2:].astype(int))

transactionDf = transactionDf.assign(Itemr = transactionDf.Item.str[2:].astype(int))

transactionDf.head()
      Item TransactionDt  Sales  Itemr
0  i_43407    2020-05-29    692  43407
1  i_95044    2020-07-22    964  95044
2  i_94560    2020-01-09    462  94560
3  i_11246    2020-02-26    690  11246
4  i_55974    2020-03-07    219  55974

offerDf.head()
  Item    StartDt      EndDt  Itemr
0  i_0 2020-04-18 2020-04-19      0
1  i_1 2020-02-28 2020-03-07      1
2  i_2 2020-03-28 2020-03-30      2
3  i_3 2020-08-03 2020-08-13      3
4  i_4 2020-05-26 2020-06-04      4

# merge on strings 
merged_df = pd.merge(offerDf,transactionDf,on='Itemr')
classic_int = merged_df[(merged_df['TransactionDt']>=merged_df['StartDt']) &
                        (merged_df['TransactionDt']<=merged_df['EndDt'])]

# merge on ints ... usually faster
merged_df = pd.merge(offerDf,transactionDf,on='Item')
classic_str = merged_df[(merged_df['TransactionDt']>=merged_df['StartDt']) &            
                        (merged_df['TransactionDt']<=merged_df['EndDt'])]

# merge on integers
cond_join_int = (transactionDf
                 .conditional_join(
                     offerDf, 
                     ('Itemr', 'Itemr', '=='), 
                     ('TransactionDt', 'StartDt', '>='), 
                     ('TransactionDt', 'EndDt', '<=')
                  )
                 )

# merge on strings
cond_join_str = (transactionDf
                 .conditional_join(
                     offerDf, 
                     ('Item', 'Item', '=='), 
                     ('TransactionDt', 'StartDt', '>='), 
                     ('TransactionDt', 'EndDt', '<=')
                  )
                )

%%timeit
merged_df = pd.merge(offerDf,transactionDf,on='Item')
classic_str = merged_df[(merged_df['TransactionDt']>=merged_df['StartDt']) &
                        (merged_df['TransactionDt']<=merged_df['EndDt'])]
292 ms ± 3.84 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
merged_df = pd.merge(offerDf,transactionDf,on='Itemr')
classic_int = merged_df[(merged_df['TransactionDt']>=merged_df['StartDt']) &
                        (merged_df['TransactionDt']<=merged_df['EndDt'])]
253 ms ± 2.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit 
(transactionDf
.conditional_join(
    offerDf, 
    ('Item', 'Item', '=='), 
    ('TransactionDt', 'StartDt', '>='), 
    ('TransactionDt', 'EndDt', '<=')
   )
)
256 ms ± 9.66 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit 
(transactionDf
.conditional_join(
    offerDf, 
    ('Itemr', 'Itemr', '=='), 
    ('TransactionDt', 'StartDt', '>='), 
    ('TransactionDt', 'EndDt', '<=')
   )
)
71.8 ms ± 2.24 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

# check that both dataframes are equal
cols = ['Item', 'TransactionDt', 'Sales', 'Itemr_y','StartDt', 'EndDt', 'Itemr_x']
cond_join_str = cond_join_str.drop(columns=('right', 'Item')).set_axis(cols, axis=1)

(cond_join_str
.sort_values(cond_join_str.columns.tolist())
.reset_index(drop=True)
.reindex(columns=classic_str.columns)
.equals(
    classic_str
    .sort_values(classic_str.columns.tolist())
    .reset_index(drop=True)
))

True

在这个答案中,我将考虑以下实例:

pandas.contat公司pandas.DataFrame.merge合并一个索引和另一个索引的列中的数据帧。

我们将为每种情况使用不同的数据帧。


1.pandas目录

考虑以下具有相同列名的DataFrames:

价格2018,尺寸(8784,5)年-月-日-小时价格0 2018 1 1 1 6.741 2018 1 1 2 4.742 2018 1 1 3 3.663 2018 1 1 4 2.304 2018 1 1 5 2.305 2018 1 1 6 2.066 2018 1 1 7 2.067 2018 1 1 8 2.068 2018 1 1 9 2.309 2018 1 1 10 2.30价格2019与尺寸(8760,5)年-月-日-小时价格0 2019 1 1 1 66.881 2019 1 1 2 66.882 2019 1 1 3 66.003 2019 1 1 4 63.644 2019 1 1 5 58.855 2019 1 1 6 55.476 2019 1 1 7 56.007 2019 1 1 8 61.098 2019 1 1 9 61.019 2019 1 1 10 61.00

可以使用pandas.cocat组合它们,只需

import pandas as pd

frames = [Price2018, Price2019]

df_merged = pd.concat(frames)

这导致DataFrame的大小为(17544,5)

如果一个人想清楚地了解发生了什么,它是这样工作的

(来源)


2.pandas.DataFrame.merge

在本节中,我们将考虑一个特定的情况:合并一个数据帧的索引和另一个数据框架的列。

假设有一个具有54列的数据帧Geo,是Date列之一,其类型为datetime64[ns]。

                 Date         1         2  ...        51        52        53
0 2010-01-01 00:00:00  0.565919  0.892376  ...  0.593049  0.775082  0.680621
1 2010-01-01 01:00:00  0.358960  0.531418  ...  0.734619  0.480450  0.926735
2 2010-01-01 02:00:00  0.531870  0.221768  ...  0.902369  0.027840  0.398864
3 2010-01-01 03:00:00  0.475463  0.245810  ...  0.306405  0.645762  0.541882
4 2010-01-01 04:00:00  0.954546  0.867960  ...  0.912257  0.039772  0.627696

以及数据帧Price,其中一列的价格名为Price,索引对应于日期(Date)

                     Price
Date                      
2010-01-01 00:00:00  29.10
2010-01-01 01:00:00   9.57
2010-01-01 02:00:00   0.00
2010-01-01 03:00:00   0.00
2010-01-01 04:00:00   0.00

为了合并它们,可以按如下方式使用pandas.DataFrame.merge

df_merged = pd.merge(Price, Geo, left_index=True, right_on='Date')

其中Geo和Price是先前的数据帧。

这将导致以下数据帧

   Price                Date         1  ...        51        52        53
0  29.10 2010-01-01 00:00:00  0.565919  ...  0.593049  0.775082  0.680621
1   9.57 2010-01-01 01:00:00  0.358960  ...  0.734619  0.480450  0.926735
2   0.00 2010-01-01 02:00:00  0.531870  ...  0.902369  0.027840  0.398864
3   0.00 2010-01-01 03:00:00  0.475463  ...  0.306405  0.645762  0.541882
4   0.00 2010-01-01 04:00:00  0.954546  ...  0.912257  0.039772  0.627696

连接101

这些动画可能更能直观地解释您。信贷:Garrick Aden Buie tidyexplain repo

内部联接

外部联接或完全联接

右联接

左联接