如何在Pandas中迭代DataFrame中的行

我有一个熊猫数据帧，df：

如何迭代此数据帧的行？对于每一行，我希望能够通过列的名称访问其元素（单元格中的值）。例如：

for row in df.rows:
    print(row['c1'], row['c2'])

我发现了一个类似的问题，建议使用以下任一项：

for date, row in df.T.iteritems():

for row in df.iterrows():

但我不知道row对象是什么，以及如何使用它。

当前回答

 for ind in df.index:
     print df['c1'][ind], df['c2'][ind]

2017-11-02 10:33:40

其他回答

我正在寻找如何迭代行和列，并在这里结束：

for i, row in df.iterrows():
    for j, column in row.iteritems():
        print(column)

2018-01-17 09:41:29

除了这篇文章中的好答案，我将提出“分而治之”的方法，我写这个答案并不是为了废除其他好答案，而是为了用另一种对我有效的方法来实现它们。它有两个步骤，即拆分和合并熊猫数据帧：

分裂与征服的证明：

您不需要使用矢量化或任何其他方法将数据帧的类型转换为另一种类型您不需要将代码循环化，这通常需要额外的时间在我的例子中，iterrows（）和itertples（）在整个数据帧上都具有相同的性能根据您对切片索引的选择，您将能够以指数方式加快迭代。索引越高，迭代过程越快。

分裂与征服的缺点：

您不应该依赖于同一数据帧和不同切片的迭代过程。这意味着，如果你想从其他切片读取或写入，那么可能很难做到这一点。

===============分而治之=================

步骤1：分割/切片

在这一步中，我们将在整个数据帧上划分迭代。假设你要将一个CSV文件读入panda df，然后对其进行迭代。在这种情况下，我有5000000条记录，我要将其拆分为100000条记录。

注意：我需要重申，正如本页其他解决方案中解释的其他运行时分析一样，在df上搜索时，“记录数”与“运行时”成指数比例。基于我的数据基准，以下是结果：

Number of records | Iteration rate [per second]
========================================
100,000           | 500
500,000           | 200
1,000,000         | 50
5,000,000         | 20

第2步：合并

这将是一个简单的步骤，只需将所有写入的CSV文件合并到一个数据帧中，然后将其写入一个更大的CSV文件。

以下是示例代码：

# Step 1 (Splitting/Slicing)
import pandas as pd
df_all = pd.read_csv('C:/KtV.csv')
df_index = 100000
df_len = len(df)
for i in range(df_len // df_index + 1):
    lower_bound = i * df_index
    higher_bound = min(lower_bound + df_index, df_len)
    # Splitting/slicing df (make sure to copy() otherwise it will be a view
    df = df_all[lower_bound:higher_bound].copy()
    '''
    Write your iteration over the sliced df here
    using iterrows() or intertuples() or ...
    '''
    # Writing into CSV files
    df.to_csv('C:/KtV_prep_' + str(i) + '.csv')



# Step 2 (Merging)
filename = 'C:/KtV_prep_'
df = (pd.read_csv(f) for f in [filename + str(i) + '.csv' for i in range(ktv_len // ktv_index + 1)])
df_prep_all = pd.concat(df)
df_prep_all.to_csv('C:/KtV_prep_all.csv')

参考：

数据流迭代的有效方法

将CSV文件连接到一个Pandas数据帧中

2020-10-02 20:30:47

 for ind in df.index:
     print df['c1'][ind], df['c2'][ind]

2017-11-02 10:33:40

更新：cs95更新了他的答案，包括简单的numpy矢量化。你可以简单地参考他的答案。

cs95表明，Pandas矢量化在使用数据帧计算数据方面远远优于其他Pandas方法。

我想补充一点，如果您首先将数据帧转换为NumPy数组，然后使用矢量化，它甚至比Pandas数据帧矢量化更快（这包括将其转换回数据帧序列的时间）。

如果您将以下函数添加到cs95的基准代码中，这将变得非常明显：

def np_vectorization(df):
    np_arr = df.to_numpy()
    return pd.Series(np_arr[:,0] + np_arr[:,1], index=df.index)

def just_np_vectorization(df):
    np_arr = df.to_numpy()
    return np_arr[:,0] + np_arr[:,1]

2020-03-24 17:57:16

您应该使用df.iterrows（）。虽然逐行迭代不是特别有效，因为必须创建Series对象。

2012-05-24 14:24:52

如何在Pandas中迭代DataFrame中的行

推荐文章

最新文章

标签