从Pandas DataFrame列标题中获取一个列表

我想从Pandas DataFrame中获得列标题的列表。DataFrame将来自用户输入，所以我不知道有多少列或它们将被称为什么。

例如，如果我有一个这样的数据帧:

>>> my_dataframe
    y  gdp  cap
0   1    2    5
1   2    3    9
2   8    7    2
3   3    4    7
4   6    7    7
5   4    8    3
6   8    2    8
7   9    9   10
8   6    6    4
9  10   10    7

我会得到一个这样的列表:

>>> header_list
['y', 'gdp', 'cap']

当前回答

如果DataFrame碰巧有一个Index或MultiIndex，你也想把它们包括在列名中:

names = list(filter(None, df.index.names + df.columns.values.tolist()))

它避免调用reset_index()，因为对于这样一个简单的操作，reset_index()会造成不必要的性能损失。

我经常遇到这种情况，因为我从数据库中穿梭数据，其中dataframe索引映射到一个主键/唯一键，但对我来说实际上只是另一个“列”。对于熊猫来说，有一个内置的方法可能是有意义的(完全有可能我错过了它)。

2020-01-16 05:24:10

其他回答

我觉得这个问题值得再解释一下。

正如fixxer所指出的，答案取决于您在项目中使用的Pandas版本。这可以通过pd得到。__version__命令。

如果你出于某种原因像我一样(在Debian 8 (Jessie)上我使用0.14.1)使用比0.16.0更老的Pandas版本，那么你需要使用:

df.keys().tolist()因为没有任何df.keys。Columns方法尚未实现。

这个keys方法的优点是，它甚至可以在更新版本的Pandas中工作，因此更加通用。

2017-12-13 14:47:36

这很有趣，但df.columns.values.tolist()几乎比df.columns.tolist()快三倍，但我认为它们是相同的:

In [97]: %timeit df.columns.values.tolist()
100000 loops, best of 3: 2.97 µs per loop

In [98]: %timeit df.columns.tolist()
10000 loops, best of 3: 9.67 µs per loop

2015-12-04 21:41:53

import pandas as pd

# create test dataframe
df = pd.DataFrame('x', columns=['A', 'B', 'C'], index=range(2))

list(df.columns)

['A', 'B', 'C']

2022-04-02 11:49:23

它变得更简单(由Pandas 0.16.0):

df.columns.tolist()

会给你一个很好的列表中的列名。

2015-04-07 14:50:33

有一个内置的方法是性能最好的:

my_dataframe.columns.values.tolist()

.columns返回一个索引，.columns。Values返回一个数组，它有一个辅助函数.tolist返回一个列表。

如果性能对你来说不那么重要，Index对象定义了一个.tolist()方法，你可以直接调用:

my_dataframe.columns.tolist()

性能上的差异是明显的:

%timeit df.columns.tolist()
16.7 µs ± 317 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

%timeit df.columns.values.tolist()
1.24 µs ± 12.3 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

对于那些讨厌打字的人，你可以在df上调用list，如下所示:

list(df)

2013-10-20 22:25:15

从Pandas DataFrame列标题中获取一个列表

推荐文章

最新文章

标签