我有一个数据框架,其中一些单元格包含多个值的列表。而不是存储多个
在一个单元格中的值,我想展开数据框架,以便列表中的每一项都获得自己的行(在所有其他列中具有相同的值)。如果我有:
import pandas as pd
import numpy as np
df = pd.DataFrame(
{'trial_num': [1, 2, 3, 1, 2, 3],
'subject': [1, 1, 1, 2, 2, 2],
'samples': [list(np.random.randn(3).round(2)) for i in range(6)]
}
)
df
Out[10]:
samples subject trial_num
0 [0.57, -0.83, 1.44] 1 1
1 [-0.01, 1.13, 0.36] 1 2
2 [1.18, -1.46, -0.94] 1 3
3 [-0.08, -4.22, -2.05] 2 1
4 [0.72, 0.79, 0.53] 2 2
5 [0.4, -0.32, -0.13] 2 3
如何转换为长格式,例如:
subject trial_num sample sample_num
0 1 1 0.57 0
1 1 1 -0.83 1
2 1 1 1.44 2
3 1 2 -0.01 0
4 1 2 1.13 1
5 1 2 0.36 2
6 1 3 1.18 0
# etc.
索引不重要,设置现有的就可以了
列作为索引,而最终排序不是
重要的。
import pandas as pd
df = pd.DataFrame([{'Product': 'Coke', 'Prices': [100,123,101,105,99,94,98]},{'Product': 'Pepsi', 'Prices': [101,104,104,101,99,99,99]}])
print(df)
df = df.assign(Prices=df.Prices.str.split(',')).explode('Prices')
print(df)
尝试在熊猫>=0.25版本
也很晚了,但这里有一个来自Karvy1的答案,如果你没有熊猫>=0.25版本,对我来说很管用:https://stackoverflow.com/a/52511166/10740287
对于上面的例子,你可以这样写:
data = [(row.subject, row.trial_num, sample) for row in df.itertuples() for sample in row.samples]
data = pd.DataFrame(data, columns=['subject', 'trial_num', 'samples'])
速度测试:
%timeit data = pd.DataFrame([(row.subject, row.trial_num, sample) for row in df.itertuples() for sample in row.samples], columns=['subject', 'trial_num', 'samples'])
1.33 ms±74.8µs / loop(平均±std. dev. 7次运行,每循环1000次)
%timeit data = df.set_index(['subject', 'trial_num'])['samples'].apply(pd.Series).stack().reset_index()
4.9 ms±189µs / loop(平均±std. dev. 7次运行,每次100次循环)
%timeit data = pd.DataFrame({col:np.repeat(df[col].values, df['samples'].str.len())for col in df.columns.drop('samples')}).assign(**{'samples':np.concatenate(df['samples'].values)})
1.38 ms±25µs / loop(平均±std. dev. 7次运行,每循环1000次)
熊猫>= 0.25
Series和DataFrame方法定义了. explosion()方法,该方法将列表分解为单独的行。请参阅文档部分关于分解一个类似列表的列。
df = pd.DataFrame({
'var1': [['a', 'b', 'c'], ['d', 'e',], [], np.nan],
'var2': [1, 2, 3, 4]
})
df
var1 var2
0 [a, b, c] 1
1 [d, e] 2
2 [] 3
3 NaN 4
df.explode('var1')
var1 var2
0 a 1
0 b 1
0 c 1
1 d 2
1 e 2
2 NaN 3 # empty list converted to NaN
3 NaN 4 # NaN entry preserved as-is
# to reset the index to be monotonically increasing...
df.explode('var1').reset_index(drop=True)
var1 var2
0 a 1
1 b 1
2 c 1
3 d 2
4 e 2
5 NaN 3
6 NaN 4
注意,这也可以适当地处理列表和标量的混合列,以及空列表和nan(这是基于重复的解决方案的缺点)。
但是,您应该注意,爆炸只对单个列有效(目前)。
附注:如果你想让一列字符串爆炸,你需要先在分隔符上分裂,然后使用爆炸。看看我的这个(非常)相关的回答。