如何可逆地存储和加载一个熊猫数据帧到/从磁盘

现在，每次运行脚本时，我都会导入一个相当大的CSV作为数据框架。是否有一个好的解决方案来保持数据帧在运行之间不断可用，这样我就不必花费所有的时间等待脚本运行?

当前回答

Pandas DataFrame有to_pickle函数，这对于保存DataFrame非常有用:

import pandas as pd

a = pd.DataFrame({'A':[0,1,0,1,0],'B':[True, True, False, False, False]})
print a
#    A      B
# 0  0   True
# 1  1   True
# 2  0  False
# 3  1  False
# 4  0  False

a.to_pickle('my_file.pkl')

b = pd.read_pickle('my_file.pkl')
print b
#    A      B
# 0  0   True
# 1  1   True
# 2  0  False
# 3  1  False
# 4  0  False

2015-11-12 21:46:29

其他回答

您可以使用羽毛格式的文件。它非常快。

df.to_feather('filename.ft')

2017-10-17 06:28:51

Numpy文件格式对于数字数据来说非常快

我更喜欢使用numpy文件，因为它们快速且易于使用。下面是一个简单的基准测试，用于保存和加载一个包含100万个点的1列数据框架。

import numpy as np
import pandas as pd

num_dict = {'voltage': np.random.rand(1000000)}
num_df = pd.DataFrame(num_dict)

使用ipython的%%timeit魔法函数

%%timeit
with open('num.npy', 'wb') as np_file:
    np.save(np_file, num_df)

输出为

100 loops, best of 3: 5.97 ms per loop

将数据加载回数据框架

%%timeit
with open('num.npy', 'rb') as np_file:
    data = np.load(np_file)

data_df = pd.DataFrame(data)

输出为

100 loops, best of 3: 5.12 ms per loop

不坏!

CONS

如果您使用python 2保存numpy文件，然后尝试使用python 3打开，则会出现问题(反之亦然)。

2017-10-13 18:25:24

https://docs.python.org/3/library/pickle.html

pickle协议格式如下:

协议版本0是原始的“人类可读”协议，并向后兼容Python的早期版本。

协议版本1是一种旧的二进制格式，它也与早期版本的Python兼容。

协议版本2是在Python 2.3中引入的。它提供了更有效的新样式类的pickle。有关协议2带来的改进，请参阅PEP 307。

协议版本3是在Python 3.0中添加的。它显式支持bytes对象，不能被Python 2.x解封。这是默认协议，也是在需要与其他Python 3版本兼容时的推荐协议。

协议版本4是在Python 3.4中添加的。它增加了对非常大的对象、pickle更多类型的对象以及一些数据格式优化的支持。有关协议4带来的改进的信息，请参阅PEP 3154。

2019-04-12 06:18:43

Pandas DataFrame有to_pickle函数，这对于保存DataFrame非常有用:

import pandas as pd

a = pd.DataFrame({'A':[0,1,0,1,0],'B':[True, True, False, False, False]})
print a
#    A      B
# 0  0   True
# 1  1   True
# 2  0  False
# 3  1  False
# 4  0  False

a.to_pickle('my_file.pkl')

b = pd.read_pickle('my_file.pkl')
print b
#    A      B
# 0  0   True
# 1  1   True
# 2  0  False
# 3  1  False
# 4  0  False

2015-11-12 21:46:29

最简单的方法是使用to_pickle来pickle它:

df.to_pickle(file_name)  # where to save it, usually as a .pkl

然后你可以使用以下命令将其加载回来:

df = pd.read_pickle(file_name)

注意:在0.11.1之前，save和load是唯一的方法(现在它们已被弃用，分别支持to_pickle和read_pickle)。

另一个流行的选择是使用HDF5 (pytables)，它为大型数据集提供了非常快的访问时间:

import pandas as pd
store = pd.HDFStore('store.h5')

store['df'] = df  # save it
store['df']  # load it

更高级的策略在烹饪书中讨论。

从0.13开始，也有msgpack，它可能在互操作性方面更好，作为JSON的更快替代品，或者如果你有python对象/文本较多的数据(参见这个问题)。

2013-06-13 23:13:34

如何可逆地存储和加载一个熊猫数据帧到/从磁盘

推荐文章

最新文章

标签