在pandas数据框架中合并两列文本

我有一个20 x 4000的数据帧在Python中使用熊猫。其中两列分别命名为Year和quarter。我想创建一个名为period的变量，使Year = 2000, quarter= q2变为2000q2。

有人能帮忙吗?

当前回答

使用.combine_first。

df['Period'] = df['Year'].combine_first(df['Quarter'])

2018-02-10 04:01:46

其他回答

该解决方案使用中间步骤，将DataFrame的两列压缩为包含值列表的单列。这不仅适用于字符串，而且适用于所有类型的列-dtype

import pandas as pd
df = pd.DataFrame({'Year': ['2014', '2015'], 'quarter': ['q1', 'q2']})
df['list']=df[['Year','quarter']].values.tolist()
df['period']=df['list'].apply(''.join)
print(df)

结果:

   Year quarter        list  period
0  2014      q1  [2014, q1]  2014q1
1  2015      q2  [2015, q2]  2015q2

2019-03-15 16:37:59

类似于@geher的答案，但可以使用任何你喜欢的分隔符:

SEP = " "
INPUT_COLUMNS_WITH_SEP = ",sep,".join(INPUT_COLUMNS).split(",")

df.assign(sep=SEP)[INPUT_COLUMNS_WITH_SEP].sum(axis=1)

2021-12-04 12:43:11

下面是我对上述解决方案的总结，将两个具有int和str值的列连接/组合成一个新列，在列值之间使用分隔符。有三种解决方案可以达到这个目的。

# be cautious about the separator, some symbols may cause "SyntaxError: EOL while scanning string literal".
# e.g. ";;" as separator would raise the SyntaxError

separator = "&&" 

# pd.Series.str.cat() method does not work to concatenate / combine two columns with int value and str value. This would raise "AttributeError: Can only use .cat accessor with a 'category' dtype"

df["period"] = df["Year"].map(str) + separator + df["quarter"]
df["period"] = df[['Year','quarter']].apply(lambda x : '{} && {}'.format(x[0],x[1]), axis=1)
df["period"] = df.apply(lambda x: f'{x["Year"]} && {x["quarter"]}', axis=1)

2019-05-16 13:19:03

虽然@silvado的答案是好的，如果你把df.map(str)改为df.astype(str)，它会更快:

import pandas as pd
df = pd.DataFrame({'Year': ['2014', '2015'], 'quarter': ['q1', 'q2']})

In [131]: %timeit df["Year"].map(str)
10000 loops, best of 3: 132 us per loop

In [132]: %timeit df["Year"].astype(str)
10000 loops, best of 3: 82.2 us per loop

2015-11-25 10:25:15

使用.combine_first。

df['Period'] = df['Year'].combine_first(df['Quarter'])

2018-02-10 04:01:46

在pandas数据框架中合并两列文本

推荐文章

最新文章

标签