我如何创建一个空DataFrame,然后添加行,一个接一个?
我创建了一个空DataFrame:
df = pd.DataFrame(columns=('lib', 'qty1', 'qty2'))
然后我可以在最后添加一个新行,并填充一个字段:
df = df._set_value(index=len(df), col='qty1', value=10.0)
它一次只适用于一个领域。向df中添加新行有什么更好的方法?
我如何创建一个空DataFrame,然后添加行,一个接一个?
我创建了一个空DataFrame:
df = pd.DataFrame(columns=('lib', 'qty1', 'qty2'))
然后我可以在最后添加一个新行,并填充一个字段:
df = df._set_value(index=len(df), col='qty1', value=10.0)
它一次只适用于一个领域。向df中添加新行有什么更好的方法?
当前回答
我想出了一个简单而美好的方法:
>>> df
A B C
one 1 2 3
>>> df.loc["two"] = [4,5,6]
>>> df
A B C
one 1 2 3
two 4 5 6
请注意评论中提到的性能警告。
其他回答
永远不要增长数据框架!
是的,人们已经解释了,你不应该增长一个DataFrame,你应该追加你的数据到一个列表,并转换为一个DataFrame一旦结束。但你知道为什么吗?
以下是最重要的原因,摘自我在这里的帖子。
它总是更便宜/更快地追加到一个列表和创建一个DataFrame。 列表占用更少的内存,并且是一种更轻的数据结构,可以处理、添加和删除。 为您的数据自动推断d类型。另一方面,创建一个空的nan帧将自动使它们成为对象,这是不好的。 索引是自动为您创建的,而不是您必须小心地将正确的索引分配给您追加的行。
这是正确的方式™积累您的数据
data = []
for a, b, c in some_function_that_yields_data():
data.append([a, b, c])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
这些选择都很糟糕
在循环内追加或连接 Append和concat单独在本质上并不坏。的 当您在循环中迭代调用它们时,问题就开始了 结果在二次内存使用。 #创建空数据框架并追加 Df = pd。DataFrame(columns=['A', 'B', 'C']) 对于some_function_that_yields_data()中的a, b, c: Df = Df。追加({A:我,B: B, C: C}, ignore_index = True) #这同样糟糕: # df = pd.concat( # df, pd。({'A': i, 'B': B, 'C': C})], # ignore_index = True) 清空nan的数据帧 永远不要创建nan的数据帧,因为列是初始化的 对象(缓慢的、不可向量化的dtype)。 #创建nan的数据帧并覆盖值。 Df = pd。DataFrame(列= [' A ', ' B ', ' C '],指数=范围(5)) 对于some_function_that_yields_data()中的a, b, c: df.loc[len(df)] = [a, b, c]
见分晓
对这些方法进行计时是了解它们在内存和效用方面有多大不同的最快方法。
基准测试代码供参考。
像这样的帖子提醒了我为什么我是这个社区的一员。人们明白教人们用正确的代码得到正确答案的重要性,而不是用错误的代码得到正确答案。现在,您可能会争辩说,如果您只是向DataFrame添加一行,那么使用loc或append都不是问题。然而,人们经常会在这个问题上添加不止一行——通常要求是使用来自函数的数据在循环中迭代地添加一行(参见相关问题)。在这种情况下,重要的是要理解迭代增长DataFrame不是一个好主意。
您可以为此连接两个数据框架。我基本上遇到了这个问题,用字符索引(不是数字)向现有的DataFrame添加新行。
因此,我在一个管道()中输入新行数据,并在一个列表中索引。
new_dict = {put input for new row here}
new_list = [put your index here]
new_df = pd.DataFrame(data=new_dict, index=new_list)
df = pd.concat([existing_df, new_df])
这将负责向空DataFrame添加一个项。问题是对于第一个索引,df.index.max() == nan:
df = pd.DataFrame(columns=['timeMS', 'accelX', 'accelY', 'accelZ', 'gyroX', 'gyroY', 'gyroZ'])
df.loc[0 if math.isnan(df.index.max()) else df.index.max() + 1] = [x for x in range(7)]
如果你的Dataframe中的所有数据都有相同的dtype,你可以使用NumPy数组。您可以直接将行写入预定义数组,并在最后将其转换为数据框架。 它似乎比转换字典列表还要快。
import pandas as pd
import numpy as np
from string import ascii_uppercase
startTime = time.perf_counter()
numcols, numrows = 5, 10000
npdf = np.ones((numrows, numcols))
for row in range(numrows):
npdf[row, 0:] = np.random.randint(0, 100, (1, numcols))
df5 = pd.DataFrame(npdf, columns=list(ascii_uppercase[:numcols]))
print('Elapsed time: {:6.3f} seconds for {:d} rows'.format(time.perf_counter() - startTime, numOfRows))
print(df5.shape)
pandas.DataFrame.append
DataFrame。append(self, other, ignore_index=False, verify_integrity=False, sort=False)→'数据帧'
Code
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
df.append(df2)
ignore_index设置为True:
df.append(df2, ignore_index=True)