如何在Pandas中迭代DataFrame中的行

我有一个熊猫数据帧，df：

如何迭代此数据帧的行？对于每一行，我希望能够通过列的名称访问其元素（单元格中的值）。例如：

for row in df.rows:
    print(row['c1'], row['c2'])

我发现了一个类似的问题，建议使用以下任一项：

for date, row in df.T.iteritems():

for row in df.iterrows():

但我不知道row对象是什么，以及如何使用它。

当前回答

您还可以使用df.apply（）来迭代行并访问函数的多个列。

docs:DataFrame.apply（）

def valuation_formula(x, y):
    return x * y * 0.5

df['price'] = df.apply(lambda row: valuation_formula(row['x'], row['y']), axis=1)

2015-06-01 06:24:44

其他回答

要循环数据帧中的所有行，可以使用：

for x in range(len(date_example.index)):
    print date_example['Date'].iloc[x]

2017-03-11 22:44:39

免责声明：尽管这里有很多答案建议不要使用迭代（循环）方法（我基本同意），但我仍然认为这是一种适用于以下情况的合理方法：

使用API中的数据扩展数据帧

假设您有一个包含不完整用户数据的大型数据帧。现在，您必须使用其他列来扩展此数据，例如，用户的年龄和性别。

这两个值都必须从后端API获取。我假设API不提供“批处理”端点（一次接受多个用户ID）。否则，您应该只调用一次API。

网络请求的成本（等待时间）远远超过了数据帧的迭代。我们讨论的是数百毫秒的网络往返时间，相比之下，使用迭代的替代方法可以忽略不计的小增益。

每行一个昂贵的网络请求

所以在这种情况下，我绝对倾向于使用迭代方法。尽管网络请求很昂贵，但可以保证对数据帧中的每一行只触发一次。以下是使用DataFrame.iterrows的示例：

实例

for index, row in users_df.iterrows():
  user_id = row['user_id']

  # Trigger expensive network request once for each row
  response_dict = backend_api.get(f'/api/user-data/{user_id}')

  # Extend dataframe with multiple data from response
  users_df.at[index, 'age'] = response_dict.get('age')
  users_df.at[index, 'gender'] = response_dict.get('gender')

2022-02-23 09:10:10

 for ind in df.index:
     print df['c1'][ind], df['c2'][ind]

2017-11-02 10:33:40

更新：cs95更新了他的答案，包括简单的numpy矢量化。你可以简单地参考他的答案。

cs95表明，Pandas矢量化在使用数据帧计算数据方面远远优于其他Pandas方法。

我想补充一点，如果您首先将数据帧转换为NumPy数组，然后使用矢量化，它甚至比Pandas数据帧矢量化更快（这包括将其转换回数据帧序列的时间）。

如果您将以下函数添加到cs95的基准代码中，这将变得非常明显：

def np_vectorization(df):
    np_arr = df.to_numpy()
    return pd.Series(np_arr[:,0] + np_arr[:,1], index=df.index)

def just_np_vectorization(df):
    np_arr = df.to_numpy()
    return np_arr[:,0] + np_arr[:,1]

2020-03-24 17:57:16

有些库（例如我使用的Java互操作库）要求一次在一行中传递值，例如，如果是流数据。为了复制流式传输的特性，我将数据帧值逐一“流式传输”，我写了以下内容，这些内容不时会派上用场。

class DataFrameReader:
  def __init__(self, df):
    self._df = df
    self._row = None
    self._columns = df.columns.tolist()
    self.reset()
    self.row_index = 0

  def __getattr__(self, key):
    return self.__getitem__(key)

  def read(self) -> bool:
    self._row = next(self._iterator, None)
    self.row_index += 1
    return self._row is not None

  def columns(self):
    return self._columns

  def reset(self) -> None:
    self._iterator = self._df.itertuples()

  def get_index(self):
    return self._row[0]

  def index(self):
    return self._row[0]

  def to_dict(self, columns: List[str] = None):
    return self.row(columns=columns)

  def tolist(self, cols) -> List[object]:
    return [self.__getitem__(c) for c in cols]

  def row(self, columns: List[str] = None) -> Dict[str, object]:
    cols = set(self._columns if columns is None else columns)
    return {c : self.__getitem__(c) for c in self._columns if c in cols}

  def __getitem__(self, key) -> object:
    # the df index of the row is at index 0
    try:
        if type(key) is list:
            ix = [self._columns.index(key) + 1 for k in key]
        else:
            ix = self._columns.index(key) + 1
        return self._row[ix]
    except BaseException as e:
        return None

  def __next__(self) -> 'DataFrameReader':
    if self.read():
        return self
    else:
        raise StopIteration

  def __iter__(self) -> 'DataFrameReader':
    return self

可用于：

for row in DataFrameReader(df):
  print(row.my_column_name)
  print(row.to_dict())
  print(row['my_column_name'])
  print(row.tolist())

并保留正在迭代的行的值/名称映射。显然，它比上面提到的使用apply和Cython慢得多，但在某些情况下是必要的。

2019-12-10 09:36:45

如何在Pandas中迭代DataFrame中的行

推荐文章

最新文章

标签