如何在Pandas中迭代DataFrame中的行

我有一个熊猫数据帧，df：

如何迭代此数据帧的行？对于每一行，我希望能够通过列的名称访问其元素（单元格中的值）。例如：

for row in df.rows:
    print(row['c1'], row['c2'])

我发现了一个类似的问题，建议使用以下任一项：

for date, row in df.T.iteritems():

for row in df.iterrows():

但我不知道row对象是什么，以及如何使用它。

当前回答

虽然iterrows（）是一个很好的选项，但有时itertples（）会快得多：

df = pd.DataFrame({'a': randn(1000), 'b': randn(1000),'N': randint(100, 1000, (1000)), 'x': 'x'})

%timeit [row.a * 2 for idx, row in df.iterrows()]
# => 10 loops, best of 3: 50.3 ms per loop

%timeit [row[1] * 2 for row in df.itertuples()]
# => 1000 loops, best of 3: 541 µs per loop

2015-09-20 13:52:48

其他回答

对于查看和修改值，我将使用iterrows（）。在for循环中，通过使用元组解包（参见示例：i，row），我使用行仅查看值，并在需要修改值时使用i和loc方法。正如前面的回答所述，这里您不应该修改正在迭代的内容。

for i, row in df.iterrows():
    df_column_A = df.loc[i, 'A']
    if df_column_A == 'Old_Value':
        df_column_A = 'New_value'

在这里，循环中的行是该行的副本，而不是它的视图。因此，您不应该编写类似于行['a']='New_Value'的内容，它不会修改DataFrame。但是，您可以使用i和loc并指定DataFrame来完成这项工作。

2019-02-27 00:29:49

本例使用iloc隔离数据帧中的每个数字。

import pandas as pd

 a = [1, 2, 3, 4]
 b = [5, 6, 7, 8]

 mjr = pd.DataFrame({'a':a, 'b':b})

 size = mjr.shape

 for i in range(size[0]):
     for j in range(size[1]):
         print(mjr.iloc[i, j])

2019-03-16 22:33:02

除了这篇文章中的好答案，我将提出“分而治之”的方法，我写这个答案并不是为了废除其他好答案，而是为了用另一种对我有效的方法来实现它们。它有两个步骤，即拆分和合并熊猫数据帧：

分裂与征服的证明：

您不需要使用矢量化或任何其他方法将数据帧的类型转换为另一种类型您不需要将代码循环化，这通常需要额外的时间在我的例子中，iterrows（）和itertples（）在整个数据帧上都具有相同的性能根据您对切片索引的选择，您将能够以指数方式加快迭代。索引越高，迭代过程越快。

分裂与征服的缺点：

您不应该依赖于同一数据帧和不同切片的迭代过程。这意味着，如果你想从其他切片读取或写入，那么可能很难做到这一点。

===============分而治之=================

步骤1：分割/切片

在这一步中，我们将在整个数据帧上划分迭代。假设你要将一个CSV文件读入panda df，然后对其进行迭代。在这种情况下，我有5000000条记录，我要将其拆分为100000条记录。

注意：我需要重申，正如本页其他解决方案中解释的其他运行时分析一样，在df上搜索时，“记录数”与“运行时”成指数比例。基于我的数据基准，以下是结果：

Number of records | Iteration rate [per second]
========================================
100,000           | 500
500,000           | 200
1,000,000         | 50
5,000,000         | 20

第2步：合并

这将是一个简单的步骤，只需将所有写入的CSV文件合并到一个数据帧中，然后将其写入一个更大的CSV文件。

以下是示例代码：

# Step 1 (Splitting/Slicing)
import pandas as pd
df_all = pd.read_csv('C:/KtV.csv')
df_index = 100000
df_len = len(df)
for i in range(df_len // df_index + 1):
    lower_bound = i * df_index
    higher_bound = min(lower_bound + df_index, df_len)
    # Splitting/slicing df (make sure to copy() otherwise it will be a view
    df = df_all[lower_bound:higher_bound].copy()
    '''
    Write your iteration over the sliced df here
    using iterrows() or intertuples() or ...
    '''
    # Writing into CSV files
    df.to_csv('C:/KtV_prep_' + str(i) + '.csv')



# Step 2 (Merging)
filename = 'C:/KtV_prep_'
df = (pd.read_csv(f) for f in [filename + str(i) + '.csv' for i in range(ktv_len // ktv_index + 1)])
df_prep_all = pd.concat(df)
df_prep_all.to_csv('C:/KtV_prep_all.csv')

参考：

数据流迭代的有效方法

将CSV文件连接到一个Pandas数据帧中

2020-10-02 20:30:47

您可以编写自己的迭代器来实现namedtuple

from collections import namedtuple

def myiter(d, cols=None):
    if cols is None:
        v = d.values.tolist()
        cols = d.columns.values.tolist()
    else:
        j = [d.columns.get_loc(c) for c in cols]
        v = d.values[:, j].tolist()

    n = namedtuple('MyTuple', cols)

    for line in iter(v):
        yield n(*line)

这与pd.DataFrame.itertuples直接相当。我的目标是以更高的效率执行相同的任务。

对于具有我的函数的给定数据帧：

list(myiter(df))

[MyTuple(c1=10, c2=100), MyTuple(c1=11, c2=110), MyTuple(c1=12, c2=120)]

或使用pd.DataFrame.itertuples：

list(df.itertuples(index=False))

[Pandas(c1=10, c2=100), Pandas(c1=11, c2=110), Pandas(c1=12, c2=120)]

全面测试我们测试使所有列可用并对列进行子设置。

def iterfullA(d):
    return list(myiter(d))

def iterfullB(d):
    return list(d.itertuples(index=False))

def itersubA(d):
    return list(myiter(d, ['col3', 'col4', 'col5', 'col6', 'col7']))

def itersubB(d):
    return list(d[['col3', 'col4', 'col5', 'col6', 'col7']].itertuples(index=False))

res = pd.DataFrame(
    index=[10, 30, 100, 300, 1000, 3000, 10000, 30000],
    columns='iterfullA iterfullB itersubA itersubB'.split(),
    dtype=float
)

for i in res.index:
    d = pd.DataFrame(np.random.randint(10, size=(i, 10))).add_prefix('col')
    for j in res.columns:
        stmt = '{}(d)'.format(j)
        setp = 'from __main__ import d, {}'.format(j)
        res.at[i, j] = timeit(stmt, setp, number=100)

res.groupby(res.columns.str[4:-1], axis=1).plot(loglog=True);

2017-11-07 04:15:19

您还可以使用df.apply（）来迭代行并访问函数的多个列。

docs:DataFrame.apply（）

def valuation_formula(x, y):
    return x * y * 0.5

df['price'] = df.apply(lambda row: valuation_formula(row['x'], row['y']), axis=1)

2015-06-01 06:24:44

如何在Pandas中迭代DataFrame中的行

推荐文章

最新文章

标签