如何在Pandas中迭代DataFrame中的行

我有一个熊猫数据帧，df：

如何迭代此数据帧的行？对于每一行，我希望能够通过列的名称访问其元素（单元格中的值）。例如：

for row in df.rows:
    print(row['c1'], row['c2'])

我发现了一个类似的问题，建议使用以下任一项：

for date, row in df.T.iteritems():

for row in df.iterrows():

但我不知道row对象是什么，以及如何使用它。

当前回答

要循环数据帧中的所有行，可以使用：

for x in range(len(date_example.index)):
    print date_example['Date'].iloc[x]

2017-03-11 22:44:39

其他回答

有时，有用的模式是：

# Borrowing @KutalmisB df example
df = pd.DataFrame({'col1': [1, 2], 'col2': [0.1, 0.2]}, index=['a', 'b'])
# The to_dict call results in a list of dicts
# where each row_dict is a dictionary with k:v pairs of columns:value for that row
for row_dict in df.to_dict(orient='records'):
    print(row_dict)

结果是：

{'col1':1.0, 'col2':0.1}
{'col1':2.0, 'col2':0.2}

2018-06-27 18:48:28

正如公认的答案所述，在行上应用函数的最快方法是使用矢量化函数，即所谓的NumPy-ufuncs（通用函数）。

但是，当您要应用的函数尚未在NumPy中实现时，应该怎么做？

好吧，使用numba的矢量化装饰器，您可以轻松地直接在Python中创建ufunc，如下所示：

from numba import vectorize, float64

@vectorize([float64(float64)])
def f(x):
    #x is your line, do something with it, and return a float

此函数的文档如下：创建NumPy通用函数

2021-05-26 09:09:10

您还可以使用df.apply（）来迭代行并访问函数的多个列。

docs:DataFrame.apply（）

def valuation_formula(x, y):
    return x * y * 0.5

df['price'] = df.apply(lambda row: valuation_formula(row['x'], row['y']), axis=1)

2015-06-01 06:24:44

iterrows（）返回元组（a，b），其中a是索引，b是行。

2021-07-03 06:58:24

除了这篇文章中的好答案，我将提出“分而治之”的方法，我写这个答案并不是为了废除其他好答案，而是为了用另一种对我有效的方法来实现它们。它有两个步骤，即拆分和合并熊猫数据帧：

分裂与征服的证明：

您不需要使用矢量化或任何其他方法将数据帧的类型转换为另一种类型您不需要将代码循环化，这通常需要额外的时间在我的例子中，iterrows（）和itertples（）在整个数据帧上都具有相同的性能根据您对切片索引的选择，您将能够以指数方式加快迭代。索引越高，迭代过程越快。

分裂与征服的缺点：

您不应该依赖于同一数据帧和不同切片的迭代过程。这意味着，如果你想从其他切片读取或写入，那么可能很难做到这一点。

===============分而治之=================

步骤1：分割/切片

在这一步中，我们将在整个数据帧上划分迭代。假设你要将一个CSV文件读入panda df，然后对其进行迭代。在这种情况下，我有5000000条记录，我要将其拆分为100000条记录。

注意：我需要重申，正如本页其他解决方案中解释的其他运行时分析一样，在df上搜索时，“记录数”与“运行时”成指数比例。基于我的数据基准，以下是结果：

Number of records | Iteration rate [per second]
========================================
100,000           | 500
500,000           | 200
1,000,000         | 50
5,000,000         | 20

第2步：合并

这将是一个简单的步骤，只需将所有写入的CSV文件合并到一个数据帧中，然后将其写入一个更大的CSV文件。

以下是示例代码：

# Step 1 (Splitting/Slicing)
import pandas as pd
df_all = pd.read_csv('C:/KtV.csv')
df_index = 100000
df_len = len(df)
for i in range(df_len // df_index + 1):
    lower_bound = i * df_index
    higher_bound = min(lower_bound + df_index, df_len)
    # Splitting/slicing df (make sure to copy() otherwise it will be a view
    df = df_all[lower_bound:higher_bound].copy()
    '''
    Write your iteration over the sliced df here
    using iterrows() or intertuples() or ...
    '''
    # Writing into CSV files
    df.to_csv('C:/KtV_prep_' + str(i) + '.csv')



# Step 2 (Merging)
filename = 'C:/KtV_prep_'
df = (pd.read_csv(f) for f in [filename + str(i) + '.csv' for i in range(ktv_len // ktv_index + 1)])
df_prep_all = pd.concat(df)
df_prep_all.to_csv('C:/KtV_prep_all.csv')

参考：

数据流迭代的有效方法

将CSV文件连接到一个Pandas数据帧中

2020-10-02 20:30:47

如何在Pandas中迭代DataFrame中的行

推荐文章

最新文章

标签