我想从Pandas DataFrame中获得列标题的列表。DataFrame将来自用户输入,所以我不知道有多少列或它们将被称为什么。
例如,如果我有一个这样的数据帧:
>>> my_dataframe
y gdp cap
0 1 2 5
1 2 3 9
2 8 7 2
3 3 4 7
4 6 7 7
5 4 8 3
6 8 2 8
7 9 9 10
8 6 6 4
9 10 10 7
我会得到一个这样的列表:
>>> header_list
['y', 'gdp', 'cap']
>>> list(my_dataframe)
['y', 'gdp', 'cap']
要在调试器模式下列出数据帧的列,使用列表理解式:
>>> [c for c in my_dataframe]
['y', 'gdp', 'cap']
顺便说一下,你可以简单地使用sorted:
>>> sorted(my_dataframe)
['cap', 'gdp', 'y']
如果DataFrame碰巧有一个Index或MultiIndex,你也想把它们包括在列名中:
names = list(filter(None, df.index.names + df.columns.values.tolist()))
它避免调用reset_index(),因为对于这样一个简单的操作,reset_index()会造成不必要的性能损失。
我经常遇到这种情况,因为我从数据库中穿梭数据,其中dataframe索引映射到一个主键/唯一键,但对我来说实际上只是另一个“列”。对于熊猫来说,有一个内置的方法可能是有意义的(完全有可能我错过了它)。
%%timeit
final_df.columns.values.tolist()
948 ns ± 19.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
%%timeit
list(final_df.columns)
14.2 µs ± 79.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
%%timeit
list(final_df.columns.values)
1.88 µs ± 11.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
%%timeit
final_df.columns.tolist()
12.3 µs ± 27.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
%%timeit
list(final_df.head(1).columns)
163 µs ± 20.6 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)