如何在Pandas中迭代DataFrame中的行

我有一个熊猫数据帧，df：

如何迭代此数据帧的行？对于每一行，我希望能够通过列的名称访问其元素（单元格中的值）。例如：

for row in df.rows:
    print(row['c1'], row['c2'])

我发现了一个类似的问题，建议使用以下任一项：

for date, row in df.T.iteritems():

for row in df.iterrows():

但我不知道row对象是什么，以及如何使用它。

当前回答

DataFrame.iterrows是一个生成索引和行（作为一个系列）的生成器：

import pandas as pd

df = pd.DataFrame({'c1': [10, 11, 12], 'c2': [100, 110, 120]})
df = df.reset_index()  # make sure indexes pair with number of rows

for index, row in df.iterrows():
    print(row['c1'], row['c2'])

10 100
11 110
12 120

2013-05-10 07:07:58

其他回答

免责声明：尽管这里有很多答案建议不要使用迭代（循环）方法（我基本同意），但我仍然认为这是一种适用于以下情况的合理方法：

使用API中的数据扩展数据帧

假设您有一个包含不完整用户数据的大型数据帧。现在，您必须使用其他列来扩展此数据，例如，用户的年龄和性别。

这两个值都必须从后端API获取。我假设API不提供“批处理”端点（一次接受多个用户ID）。否则，您应该只调用一次API。

网络请求的成本（等待时间）远远超过了数据帧的迭代。我们讨论的是数百毫秒的网络往返时间，相比之下，使用迭代的替代方法可以忽略不计的小增益。

每行一个昂贵的网络请求

所以在这种情况下，我绝对倾向于使用迭代方法。尽管网络请求很昂贵，但可以保证对数据帧中的每一行只触发一次。以下是使用DataFrame.iterrows的示例：

实例

for index, row in users_df.iterrows():
  user_id = row['user_id']

  # Trigger expensive network request once for each row
  response_dict = backend_api.get(f'/api/user-data/{user_id}')

  # Extend dataframe with multiple data from response
  users_df.at[index, 'age'] = response_dict.get('age')
  users_df.at[index, 'gender'] = response_dict.get('gender')

2022-02-23 09:10:10

DataFrame.iterrows是一个生成索引和行（作为一个系列）的生成器：

import pandas as pd

df = pd.DataFrame({'c1': [10, 11, 12], 'c2': [100, 110, 120]})
df = df.reset_index()  # make sure indexes pair with number of rows

for index, row in df.iterrows():
    print(row['c1'], row['c2'])

10 100
11 110
12 120

2013-05-10 07:07:58

有些库（例如我使用的Java互操作库）要求一次在一行中传递值，例如，如果是流数据。为了复制流式传输的特性，我将数据帧值逐一“流式传输”，我写了以下内容，这些内容不时会派上用场。

class DataFrameReader:
  def __init__(self, df):
    self._df = df
    self._row = None
    self._columns = df.columns.tolist()
    self.reset()
    self.row_index = 0

  def __getattr__(self, key):
    return self.__getitem__(key)

  def read(self) -> bool:
    self._row = next(self._iterator, None)
    self.row_index += 1
    return self._row is not None

  def columns(self):
    return self._columns

  def reset(self) -> None:
    self._iterator = self._df.itertuples()

  def get_index(self):
    return self._row[0]

  def index(self):
    return self._row[0]

  def to_dict(self, columns: List[str] = None):
    return self.row(columns=columns)

  def tolist(self, cols) -> List[object]:
    return [self.__getitem__(c) for c in cols]

  def row(self, columns: List[str] = None) -> Dict[str, object]:
    cols = set(self._columns if columns is None else columns)
    return {c : self.__getitem__(c) for c in self._columns if c in cols}

  def __getitem__(self, key) -> object:
    # the df index of the row is at index 0
    try:
        if type(key) is list:
            ix = [self._columns.index(key) + 1 for k in key]
        else:
            ix = self._columns.index(key) + 1
        return self._row[ix]
    except BaseException as e:
        return None

  def __next__(self) -> 'DataFrameReader':
    if self.read():
        return self
    else:
        raise StopIteration

  def __iter__(self) -> 'DataFrameReader':
    return self

可用于：

for row in DataFrameReader(df):
  print(row.my_column_name)
  print(row.to_dict())
  print(row['my_column_name'])
  print(row.tolist())

并保留正在迭代的行的值/名称映射。显然，它比上面提到的使用apply和Cython慢得多，但在某些情况下是必要的。

2019-12-10 09:36:45

有时，有用的模式是：

# Borrowing @KutalmisB df example
df = pd.DataFrame({'col1': [1, 2], 'col2': [0.1, 0.2]}, index=['a', 'b'])
# The to_dict call results in a list of dicts
# where each row_dict is a dictionary with k:v pairs of columns:value for that row
for row_dict in df.to_dict(orient='records'):
    print(row_dict)

结果是：

{'col1':1.0, 'col2':0.1}
{'col1':2.0, 'col2':0.2}

2018-06-27 18:48:28

如何高效迭代

如果您真的需要迭代Pandas数据帧，您可能希望避免使用iterrows（）。有不同的方法，通常的iterrows（）远远不是最好的。itertples（）可以快100倍。

简而言之：

作为一般规则，使用df.itertuples（name=None）。特别是当列数固定且少于255列时。见第（3）点否则，请使用df.itertuples（），除非您的列包含空格或“-”等特殊字符。见第（2）点使用上一个示例，即使数据帧中有奇怪的列，也可以使用itertples（）。见第（4）点如果无法使用前面的解决方案，请仅使用iterrows（）。见第（1）点

对Pandas数据帧中的行进行迭代的不同方法：

生成具有百万行和4列的随机数据帧：

    df = pd.DataFrame(np.random.randint(0, 100, size=(1000000, 4)), columns=list('ABCD'))
    print(df)

1）通常的iterrows（）很方便，但速度很慢：

start_time = time.clock()
result = 0
for _, row in df.iterrows():
    result += max(row['B'], row['C'])

total_elapsed_time = round(time.clock() - start_time, 2)
print("1. Iterrows done in {} seconds, result = {}".format(total_elapsed_time, result))

2）默认的itertples（）已经快得多，但它不适用于列名称，例如My Col Name is very Strange（我的列名称非常奇怪）（如果列重复或列名称不能简单地转换为Python变量名称，则应避免使用此方法）

start_time = time.clock()
result = 0
for row in df.itertuples(index=False):
    result += max(row.B, row.C)

total_elapsed_time = round(time.clock() - start_time, 2)
print("2. Named Itertuples done in {} seconds, result = {}".format(total_elapsed_time, result))

3）使用name=None的默认itertples（）甚至更快，但并不方便，因为您必须为每列定义一个变量。

start_time = time.clock()
result = 0
for(_, col1, col2, col3, col4) in df.itertuples(name=None):
    result += max(col2, col3)

total_elapsed_time = round(time.clock() - start_time, 2)
print("3. Itertuples done in {} seconds, result = {}".format(total_elapsed_time, result))

4）最后，命名的itertples（）比上一点慢，但您不必为每列定义变量，它可以处理列名称，例如My Col Name is very Strange。

start_time = time.clock()
result = 0
for row in df.itertuples(index=False):
    result += max(row[df.columns.get_loc('B')], row[df.columns.get_loc('C')])

total_elapsed_time = round(time.clock() - start_time, 2)
print("4. Polyvalent Itertuples working even with special characters in the column name done in {} seconds, result = {}".format(total_elapsed_time, result))

输出：

         A   B   C   D
0       41  63  42  23
1       54   9  24  65
2       15  34  10   9
3       39  94  82  97
4        4  88  79  54
...     ..  ..  ..  ..
999995  48  27   4  25
999996  16  51  34  28
999997   1  39  61  14
999998  66  51  27  70
999999  51  53  47  99

[1000000 rows x 4 columns]

1. Iterrows done in 104.96 seconds, result = 66151519
2. Named Itertuples done in 1.26 seconds, result = 66151519
3. Itertuples done in 0.94 seconds, result = 66151519
4. Polyvalent Itertuples working even with special characters in the column name done in 2.94 seconds, result = 66151519

本文是iterrows和itertules之间的一个非常有趣的比较

2019-12-19 16:02:14

如何在Pandas中迭代DataFrame中的行

推荐文章

最新文章

标签