我有一个熊猫数据帧,df:
c1 c2
0 10 100
1 11 110
2 12 120
如何迭代此数据帧的行?对于每一行,我希望能够通过列的名称访问其元素(单元格中的值)。例如:
for row in df.rows:
print(row['c1'], row['c2'])
我发现了一个类似的问题,建议使用以下任一项:
for date, row in df.T.iteritems():
for row in df.iterrows():
但我不知道row对象是什么,以及如何使用它。
DataFrame.iterrows是一个生成索引和行(作为一个系列)的生成器:
import pandas as pd
df = pd.DataFrame({'c1': [10, 11, 12], 'c2': [100, 110, 120]})
df = df.reset_index() # make sure indexes pair with number of rows
for index, row in df.iterrows():
print(row['c1'], row['c2'])
10 100
11 110
12 120
正如公认的答案所述,在行上应用函数的最快方法是使用矢量化函数,即所谓的NumPy-ufuncs(通用函数)。
但是,当您要应用的函数尚未在NumPy中实现时,应该怎么做?
好吧,使用numba的矢量化装饰器,您可以轻松地直接在Python中创建ufunc,如下所示:
from numba import vectorize, float64
@vectorize([float64(float64)])
def f(x):
#x is your line, do something with it, and return a float
此函数的文档如下:创建NumPy通用函数