在pandas数据框架中合并两列文本

我有一个20 x 4000的数据帧在Python中使用熊猫。其中两列分别命名为Year和quarter。我想创建一个名为period的变量，使Year = 2000, quarter= q2变为2000q2。

有人能帮忙吗?

当前回答

def madd(x):
    """Performs element-wise string concatenation with multiple input arrays.

    Args:
        x: iterable of np.array.

    Returns: np.array.
    """
    for i, arr in enumerate(x):
        if type(arr.item(0)) is not str:
            x[i] = x[i].astype(str)
    return reduce(np.core.defchararray.add, x)

例如:

data = list(zip([2000]*4, ['q1', 'q2', 'q3', 'q4']))
df = pd.DataFrame(data=data, columns=['Year', 'quarter'])
df['period'] = madd([df[col].values for col in ['Year', 'quarter']])

df

    Year    quarter period
0   2000    q1  2000q1
1   2000    q2  2000q2
2   2000    q3  2000q3
3   2000    q4  2000q4

2017-07-21 19:38:25

其他回答

该解决方案使用中间步骤，将DataFrame的两列压缩为包含值列表的单列。这不仅适用于字符串，而且适用于所有类型的列-dtype

import pandas as pd
df = pd.DataFrame({'Year': ['2014', '2015'], 'quarter': ['q1', 'q2']})
df['list']=df[['Year','quarter']].values.tolist()
df['period']=df['list'].apply(''.join)
print(df)

结果:

   Year quarter        list  period
0  2014      q1  [2014, q1]  2014q1
1  2015      q2  [2015, q2]  2015q2

2019-03-15 16:37:59

正如前面提到的，必须将每个列转换为字符串，然后使用加号运算符将两个字符串列合并。使用NumPy可以大大提高性能。

%timeit df['Year'].values.astype(str) + df.quarter
71.1 ms ± 3.76 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

%timeit df['Year'].astype(str) + df['quarter']
565 ms ± 22.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

2017-10-25 03:21:25

泛化到多个列，为什么不呢:

columns = ['whatever', 'columns', 'you', 'choose']
df['period'] = df[columns].astype(str).sum(axis=1)

2019-07-30 10:38:10

虽然@silvado的答案是好的，如果你把df.map(str)改为df.astype(str)，它会更快:

import pandas as pd
df = pd.DataFrame({'Year': ['2014', '2015'], 'quarter': ['q1', 'q2']})

In [131]: %timeit df["Year"].map(str)
10000 loops, best of 3: 132 us per loop

In [132]: %timeit df["Year"].astype(str)
10000 loops, best of 3: 82.2 us per loop

2015-11-25 10:25:15

df = pd.DataFrame({'Year': ['2014', '2015'], 'quarter': ['q1', 'q2']})
df['period'] = df[['Year', 'quarter']].apply(lambda x: ''.join(x), axis=1)

产生这个数据框架

   Year quarter  period
0  2014      q1  2014q1
1  2015      q2  2015q2

该方法通过将df[['Year'， 'quarter']]替换为数据帧的任意列片来泛化任意数量的字符串列，例如df.iloc[:，0:2]。Apply (lambda x: " .join(x)， axis=1)。

您可以在这里查看有关apply()方法的更多信息

2015-09-11 17:36:18

在pandas数据框架中合并两列文本

推荐文章

最新文章

标签