从Pandas DataFrame列标题中获取一个列表

我想从Pandas DataFrame中获得列标题的列表。DataFrame将来自用户输入，所以我不知道有多少列或它们将被称为什么。

例如，如果我有一个这样的数据帧:

>>> my_dataframe
    y  gdp  cap
0   1    2    5
1   2    3    9
2   8    7    2
3   3    4    7
4   6    7    7
5   4    8    3
6   8    2    8
7   9    9   10
8   6    6    4
9  10   10    7

我会得到一个这样的列表:

>>> header_list
['y', 'gdp', 'cap']

当前回答

即使之前提供的解决方案很好，我也希望像frame.column_names()这样的东西是Pandas中的一个函数，但由于它不是，也许使用下面的语法会很好。通过调用"tolist"函数，它以某种方式保留了您正在以正确的方式使用pandas的感觉:

frame.columns.tolist()

2019-02-14 10:58:42

其他回答

在笔记本上

对于IPython笔记本中的数据探索，我的首选方法是:

sorted(df)

这将产生一个易于阅读的字母顺序列表。

在代码存储库中

在代码中，我发现它更明确

df.columns

因为它告诉其他阅读你代码的人你在做什么。

2016-03-30 07:19:35

为了快速，简洁，直观的检查，试试这个:

for col in df.columns:
    print col

2018-08-22 16:17:27

%%timeit
final_df.columns.values.tolist()
948 ns ± 19.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

%%timeit
list(final_df.columns)
14.2 µs ± 79.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

%%timeit
list(final_df.columns.values)
1.88 µs ± 11.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

%%timeit
final_df.columns.tolist()
12.3 µs ± 27.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

%%timeit
list(final_df.head(1).columns)
163 µs ± 20.6 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

2019-04-16 06:32:43

有一个内置的方法是性能最好的:

my_dataframe.columns.values.tolist()

.columns返回一个索引，.columns。Values返回一个数组，它有一个辅助函数.tolist返回一个列表。

如果性能对你来说不那么重要，Index对象定义了一个.tolist()方法，你可以直接调用:

my_dataframe.columns.tolist()

性能上的差异是明显的:

%timeit df.columns.tolist()
16.7 µs ± 317 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

%timeit df.columns.values.tolist()
1.24 µs ± 12.3 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

对于那些讨厌打字的人，你可以在df上调用list，如下所示:

list(df)

2013-10-20 22:25:15

它变得更简单(由Pandas 0.16.0):

df.columns.tolist()

会给你一个很好的列表中的列名。

2015-04-07 14:50:33

从Pandas DataFrame列标题中获取一个列表

推荐文章

最新文章

标签