通过每次追加一行来创建Pandas数据框架

我如何创建一个空DataFrame，然后添加行，一个接一个?

我创建了一个空DataFrame:

df = pd.DataFrame(columns=('lib', 'qty1', 'qty2'))

然后我可以在最后添加一个新行，并填充一个字段:

df = df._set_value(index=len(df), col='qty1', value=10.0)

它一次只适用于一个领域。向df中添加新行有什么更好的方法?

当前回答

有关有效附加，请参见如何向pandas数据框架添加额外行和使用放大设置。

通过loc/ix在不存在的键索引数据上添加行。例如:

In [1]: se = pd.Series([1,2,3])

In [2]: se
Out[2]:
0    1
1    2
2    3
dtype: int64

In [3]: se[5] = 5.

In [4]: se
Out[4]:
0    1.0
1    2.0
2    3.0
5    5.0
dtype: float64

Or:

In [1]: dfi = pd.DataFrame(np.arange(6).reshape(3,2),
   .....:                 columns=['A','B'])
   .....:

In [2]: dfi
Out[2]:
   A  B
0  0  1
1  2  3
2  4  5

In [3]: dfi.loc[:,'C'] = dfi.loc[:,'A']

In [4]: dfi
Out[4]:
   A  B  C
0  0  1  0
1  2  3  2
2  4  5  4
In [5]: dfi.loc[3] = 5

In [6]: dfi
Out[6]:
   A  B  C
0  0  1  0
1  2  3  2
2  4  5  4
3  5  5  5

2014-04-30 17:31:04

其他回答

你只需要loc[df]。形状[0]]或loc[len(df)]

# Assuming your df has 4 columns (str, int, str, bool)
df.loc[df.shape[0]] = ['col1Value', 100, 'col3Value', False]

df.loc[len(df)] = ['col1Value', 100, 'col3Value', False]

2020-05-01 14:39:16

永远不要增长数据框架!

是的，人们已经解释了，你不应该增长一个DataFrame，你应该追加你的数据到一个列表，并转换为一个DataFrame一旦结束。但你知道为什么吗?

以下是最重要的原因，摘自我在这里的帖子。

它总是更便宜/更快地追加到一个列表和创建一个DataFrame。列表占用更少的内存，并且是一种更轻的数据结构，可以处理、添加和删除。为您的数据自动推断d类型。另一方面，创建一个空的nan帧将自动使它们成为对象，这是不好的。索引是自动为您创建的，而不是您必须小心地将正确的索引分配给您追加的行。

这是正确的方式™积累您的数据

data = []
for a, b, c in some_function_that_yields_data():
    data.append([a, b, c])

df = pd.DataFrame(data, columns=['A', 'B', 'C'])

这些选择都很糟糕

在循环内追加或连接 Append和concat单独在本质上并不坏。的当您在循环中迭代调用它们时，问题就开始了结果在二次内存使用。 #创建空数据框架并追加 Df = pd。DataFrame(columns=['A'， 'B'， 'C']) 对于some_function_that_yields_data()中的a, b, c: Df = Df。追加({A:我,B: B, C: C}, ignore_index = True) #这同样糟糕: # df = pd.concat( # df, pd。({'A': i， 'B': B， 'C': C})]， # ignore_index = True) 清空nan的数据帧永远不要创建nan的数据帧，因为列是初始化的对象(缓慢的、不可向量化的dtype)。 #创建nan的数据帧并覆盖值。 Df = pd。DataFrame(列= [' A ', ' B ', ' C '],指数=范围(5)) 对于some_function_that_yields_data()中的a, b, c: df.loc[len(df)] = [a, b, c]

见分晓

对这些方法进行计时是了解它们在内存和效用方面有多大不同的最快方法。

基准测试代码供参考。

像这样的帖子提醒了我为什么我是这个社区的一员。人们明白教人们用正确的代码得到正确答案的重要性，而不是用错误的代码得到正确答案。现在，您可能会争辩说，如果您只是向DataFrame添加一行，那么使用loc或append都不是问题。然而，人们经常会在这个问题上添加不止一行——通常要求是使用来自函数的数据在循环中迭代地添加一行(参见相关问题)。在这种情况下，重要的是要理解迭代增长DataFrame不是一个好主意。

2020-07-04 22:15:04

您还可以建立一个列表的列表，并将其转换为数据框架-

import pandas as pd

columns = ['i','double','square']
rows = []

for i in range(6):
    row = [i, i*2, i*i]
    rows.append(row)

df = pd.DataFrame(rows, columns=columns)

给

    i   double  square
0   0   0   0
1   1   2   1
2   2   4   4
3   3   6   9
4   4   8   16
5   5   10  25

2017-10-13 12:16:23

如果你总是想在最后添加一个新行，使用这个:

df.loc[len(df)] = ['name5', 9, 0]

2021-03-06 13:53:27

mycolumns = ['A', 'B']
df = pd.DataFrame(columns=mycolumns)
rows = [[1,2],[3,4],[5,6]]
for row in rows:
    df.loc[len(df)] = row

2015-06-24 21:06:31

通过每次追加一行来创建Pandas数据框架

推荐文章

最新文章

标签