从Pandas DataFrame列标题中获取一个列表

我想从Pandas DataFrame中获得列标题的列表。DataFrame将来自用户输入，所以我不知道有多少列或它们将被称为什么。

例如，如果我有一个这样的数据帧:

>>> my_dataframe
    y  gdp  cap
0   1    2    5
1   2    3    9
2   8    7    2
3   3    4    7
4   6    7    7
5   4    8    3
6   8    2    8
7   9    9   10
8   6    6    4
9  10   10    7

我会得到一个这样的列表:

>>> header_list
['y', 'gdp', 'cap']

当前回答

我做了一些快速测试，也许不出意外，使用datafframe .columns.values.tolist()的内置版本是最快的:

In [1]: %timeit [column for column in df]
1000 loops, best of 3: 81.6 µs per loop

In [2]: %timeit df.columns.values.tolist()
10000 loops, best of 3: 16.1 µs per loop

In [3]: %timeit list(df)
10000 loops, best of 3: 44.9 µs per loop

In [4]: % timeit list(df.columns.values)
10000 loops, best of 3: 38.4 µs per loop

(尽管如此，我仍然非常喜欢这个列表(数据框架)，所以感谢EdChum!)

2014-12-01 20:31:56

其他回答

n = []
for i in my_dataframe.columns:
    n.append(i)
print n

2013-10-20 21:43:30

DataFrame遵循类似字典的约定，即遍历对象的“键”。

my_dataframe.keys()

创建一个键/列列表-对象方法to_list()和Pythonic方法:

my_dataframe.keys().to_list()
list(my_dataframe.keys())

DataFrame的基本迭代返回列标签:

[column for column in my_dataframe]

不要将DataFrame转换为列表，只是为了获得列标签。在寻找方便的代码示例时，不要停止思考。

xlarge = pd.DataFrame(np.arange(100000000).reshape(10000,10000))
list(xlarge) # Compute time and memory consumption depend on dataframe size - O(N)
list(xlarge.keys()) # Constant time operation - O(1)

2014-01-23 17:23:40

正如Simeon Visser的回答，你可以这样做

list(my_dataframe.columns.values)

list(my_dataframe) # For less typing.

但我认为最完美的地方是:

list(my_dataframe.columns)

它是明确的，同时不是不必要的长。

2018-02-16 18:36:08

李光复

2021-10-27 22:35:11

如果DataFrame碰巧有一个Index或MultiIndex，你也想把它们包括在列名中:

names = list(filter(None, df.index.names + df.columns.values.tolist()))

它避免调用reset_index()，因为对于这样一个简单的操作，reset_index()会造成不必要的性能损失。

我经常遇到这种情况，因为我从数据库中穿梭数据，其中dataframe索引映射到一个主键/唯一键，但对我来说实际上只是另一个“列”。对于熊猫来说，有一个内置的方法可能是有意义的(完全有可能我错过了它)。

2020-01-16 05:24:10

从Pandas DataFrame列标题中获取一个列表

推荐文章

最新文章

标签