如何在Pandas中迭代DataFrame中的行

我有一个熊猫数据帧，df：

如何迭代此数据帧的行？对于每一行，我希望能够通过列的名称访问其元素（单元格中的值）。例如：

for row in df.rows:
    print(row['c1'], row['c2'])

我发现了一个类似的问题，建议使用以下任一项：

for date, row in df.T.iteritems():

for row in df.iterrows():

但我不知道row对象是什么，以及如何使用它。

当前回答

如何高效迭代

如果您真的需要迭代Pandas数据帧，您可能希望避免使用iterrows（）。有不同的方法，通常的iterrows（）远远不是最好的。itertples（）可以快100倍。

简而言之：

作为一般规则，使用df.itertuples（name=None）。特别是当列数固定且少于255列时。见第（3）点否则，请使用df.itertuples（），除非您的列包含空格或“-”等特殊字符。见第（2）点使用上一个示例，即使数据帧中有奇怪的列，也可以使用itertples（）。见第（4）点如果无法使用前面的解决方案，请仅使用iterrows（）。见第（1）点

对Pandas数据帧中的行进行迭代的不同方法：

生成具有百万行和4列的随机数据帧：

    df = pd.DataFrame(np.random.randint(0, 100, size=(1000000, 4)), columns=list('ABCD'))
    print(df)

1）通常的iterrows（）很方便，但速度很慢：

start_time = time.clock()
result = 0
for _, row in df.iterrows():
    result += max(row['B'], row['C'])

total_elapsed_time = round(time.clock() - start_time, 2)
print("1. Iterrows done in {} seconds, result = {}".format(total_elapsed_time, result))

2）默认的itertples（）已经快得多，但它不适用于列名称，例如My Col Name is very Strange（我的列名称非常奇怪）（如果列重复或列名称不能简单地转换为Python变量名称，则应避免使用此方法）

start_time = time.clock()
result = 0
for row in df.itertuples(index=False):
    result += max(row.B, row.C)

total_elapsed_time = round(time.clock() - start_time, 2)
print("2. Named Itertuples done in {} seconds, result = {}".format(total_elapsed_time, result))

3）使用name=None的默认itertples（）甚至更快，但并不方便，因为您必须为每列定义一个变量。

start_time = time.clock()
result = 0
for(_, col1, col2, col3, col4) in df.itertuples(name=None):
    result += max(col2, col3)

total_elapsed_time = round(time.clock() - start_time, 2)
print("3. Itertuples done in {} seconds, result = {}".format(total_elapsed_time, result))

4）最后，命名的itertples（）比上一点慢，但您不必为每列定义变量，它可以处理列名称，例如My Col Name is very Strange。

start_time = time.clock()
result = 0
for row in df.itertuples(index=False):
    result += max(row[df.columns.get_loc('B')], row[df.columns.get_loc('C')])

total_elapsed_time = round(time.clock() - start_time, 2)
print("4. Polyvalent Itertuples working even with special characters in the column name done in {} seconds, result = {}".format(total_elapsed_time, result))

输出：

         A   B   C   D
0       41  63  42  23
1       54   9  24  65
2       15  34  10   9
3       39  94  82  97
4        4  88  79  54
...     ..  ..  ..  ..
999995  48  27   4  25
999996  16  51  34  28
999997   1  39  61  14
999998  66  51  27  70
999999  51  53  47  99

[1000000 rows x 4 columns]

1. Iterrows done in 104.96 seconds, result = 66151519
2. Named Itertuples done in 1.26 seconds, result = 66151519
3. Itertuples done in 0.94 seconds, result = 66151519
4. Polyvalent Itertuples working even with special characters in the column name done in 2.94 seconds, result = 66151519

本文是iterrows和itertules之间的一个非常有趣的比较

2019-12-19 16:02:14

其他回答

有时循环确实比矢量化代码更好

正如这里的许多答案正确指出的那样，Pandas中的默认计划应该是编写矢量化代码（带有隐式循环），而不是自己尝试显式循环。但问题仍然是你是否应该在Pandas中编写循环，如果是的话，在这些情况下最好的循环方式是什么。

我认为，至少有一种情况下循环是合适的：当您需要以某种复杂的方式计算依赖于其他行中的值的函数时。在这种情况下，循环代码通常比矢量化代码更简单、更可读、更不易出错。

循环代码甚至可能更快，正如您将在下面看到的那样，所以在速度至关重要的情况下，循环可能是有意义的。但实际上，这些只是一些情况的子集，您可能应该首先使用numpy/numa（而不是Pandas），因为优化的numpy/noma几乎总是比Pandas更快。

让我们用一个例子来说明这一点。假设您希望获取一列的累积和，但每当其他列等于零时，将其重置：

import pandas as pd
import numpy as np

df = pd.DataFrame( { 'x':[1,2,3,4,5,6], 'y':[1,1,1,0,1,1]  } )

#   x  y  desired_result
#0  1  1               1
#1  2  1               3
#2  3  1               6
#3  4  0               4
#4  5  1               9
#5  6  1              15

这是一个很好的例子，你当然可以写一行Pandas来实现这一点，尽管它不是特别可读，特别是如果你还没有对Pandas有足够的经验：

df.groupby( (df.y==0).cumsum() )['x'].cumsum()

对于大多数情况来说，这将足够快，尽管您也可以通过避免groupby来编写更快的代码，但它可能更不可读。

或者，如果我们把它写成一个循环呢？您可以使用NumPy执行以下操作：

import numba as nb

@nb.jit(nopython=True)  # Optional
def custom_sum(x,y):
    x_sum = x.copy()
    for i in range(1,len(df)):
        if y[i] > 0: x_sum[i] = x_sum[i-1] + x[i]
    return x_sum

df['desired_result'] = custom_sum( df.x.to_numpy(), df.y.to_numpy() )

诚然，将DataFrame列转换为NumPy数组需要一些开销，但核心代码只有一行代码，即使您对Pandas或NumPy一无所知，也可以阅读：

if y[i] > 0: x_sum[i] = x_sum[i-1] + x[i]

这段代码实际上比矢量化代码更快。在一些具有100000行的快速测试中，上述方法比groupby方法快大约10倍。注意，速度的一个关键是numba，这是可选的。如果没有“@nb.jit”行，循环代码实际上比groupby方法慢大约10倍。

显然，这个示例非常简单，您可能更喜欢一行panda，而不是编写一个带有相关开销的循环。然而，对于这个问题，有更复杂的版本，NumPy/numa循环方法的可读性或速度可能是有意义的。

2020-12-21 16:48:23

对于查看和修改值，我将使用iterrows（）。在for循环中，通过使用元组解包（参见示例：i，row），我使用行仅查看值，并在需要修改值时使用i和loc方法。正如前面的回答所述，这里您不应该修改正在迭代的内容。

for i, row in df.iterrows():
    df_column_A = df.loc[i, 'A']
    if df_column_A == 'Old_Value':
        df_column_A = 'New_value'

在这里，循环中的行是该行的副本，而不是它的视图。因此，您不应该编写类似于行['a']='New_Value'的内容，它不会修改DataFrame。但是，您可以使用i和loc并指定DataFrame来完成这项工作。

2019-02-27 00:29:49

您可以编写自己的迭代器来实现namedtuple

from collections import namedtuple

def myiter(d, cols=None):
    if cols is None:
        v = d.values.tolist()
        cols = d.columns.values.tolist()
    else:
        j = [d.columns.get_loc(c) for c in cols]
        v = d.values[:, j].tolist()

    n = namedtuple('MyTuple', cols)

    for line in iter(v):
        yield n(*line)

这与pd.DataFrame.itertuples直接相当。我的目标是以更高的效率执行相同的任务。

对于具有我的函数的给定数据帧：

list(myiter(df))

[MyTuple(c1=10, c2=100), MyTuple(c1=11, c2=110), MyTuple(c1=12, c2=120)]

或使用pd.DataFrame.itertuples：

list(df.itertuples(index=False))

[Pandas(c1=10, c2=100), Pandas(c1=11, c2=110), Pandas(c1=12, c2=120)]

全面测试我们测试使所有列可用并对列进行子设置。

def iterfullA(d):
    return list(myiter(d))

def iterfullB(d):
    return list(d.itertuples(index=False))

def itersubA(d):
    return list(myiter(d, ['col3', 'col4', 'col5', 'col6', 'col7']))

def itersubB(d):
    return list(d[['col3', 'col4', 'col5', 'col6', 'col7']].itertuples(index=False))

res = pd.DataFrame(
    index=[10, 30, 100, 300, 1000, 3000, 10000, 30000],
    columns='iterfullA iterfullB itersubA itersubB'.split(),
    dtype=float
)

for i in res.index:
    d = pd.DataFrame(np.random.randint(10, size=(i, 10))).add_prefix('col')
    for j in res.columns:
        stmt = '{}(d)'.format(j)
        setp = 'from __main__ import d, {}'.format(j)
        res.at[i, j] = timeit(stmt, setp, number=100)

res.groupby(res.columns.str[4:-1], axis=1).plot(loglog=True);

2017-11-07 04:15:19

DataFrame.iterrows是一个生成索引和行（作为一个系列）的生成器：

import pandas as pd

df = pd.DataFrame({'c1': [10, 11, 12], 'c2': [100, 110, 120]})
df = df.reset_index()  # make sure indexes pair with number of rows

for index, row in df.iterrows():
    print(row['c1'], row['c2'])

10 100
11 110
12 120

2013-05-10 07:07:58

正如公认的答案所述，在行上应用函数的最快方法是使用矢量化函数，即所谓的NumPy-ufuncs（通用函数）。

但是，当您要应用的函数尚未在NumPy中实现时，应该怎么做？

好吧，使用numba的矢量化装饰器，您可以轻松地直接在Python中创建ufunc，如下所示：

from numba import vectorize, float64

@vectorize([float64(float64)])
def f(x):
    #x is your line, do something with it, and return a float

此函数的文档如下：创建NumPy通用函数

2021-05-26 09:09:10

如何在Pandas中迭代DataFrame中的行

推荐文章

最新文章

标签