如何可逆地存储和加载一个熊猫数据帧到/从磁盘

现在，每次运行脚本时，我都会导入一个相当大的CSV作为数据框架。是否有一个好的解决方案来保持数据帧在运行之间不断可用，这样我就不必花费所有的时间等待脚本运行?

当前回答

Numpy文件格式对于数字数据来说非常快

我更喜欢使用numpy文件，因为它们快速且易于使用。下面是一个简单的基准测试，用于保存和加载一个包含100万个点的1列数据框架。

import numpy as np
import pandas as pd

num_dict = {'voltage': np.random.rand(1000000)}
num_df = pd.DataFrame(num_dict)

使用ipython的%%timeit魔法函数

%%timeit
with open('num.npy', 'wb') as np_file:
    np.save(np_file, num_df)

输出为

100 loops, best of 3: 5.97 ms per loop

将数据加载回数据框架

%%timeit
with open('num.npy', 'rb') as np_file:
    data = np.load(np_file)

data_df = pd.DataFrame(data)

输出为

100 loops, best of 3: 5.12 ms per loop

不坏!

CONS

如果您使用python 2保存numpy文件，然后尝试使用python 3打开，则会出现问题(反之亦然)。

2017-10-13 18:25:24

其他回答

虽然已经有一些答案，我找到了一个很好的比较，他们尝试了几种方法来序列化熊猫数据框架:有效地存储熊猫数据框架。

他们比较:

pickle:原始ASCII数据格式 cPickle，一个C库 Pickle-p2:使用更新的二进制格式 Json: standardlib Json库 json-no-index:类似json，但没有索引 msgpack:二进制JSON替代品 CSV hdfstore: HDF5存储格式

在他们的实验中，他们序列化了一个包含1,000,000行的DataFrame，并分别测试了两列:一列是文本数据，另一列是数字。他们的免责声明说:

您不应该相信以下内容适用于您的数据。您应该查看自己的数据并自己运行基准测试

他们提到的测试源代码可以在网上找到。由于这段代码不能直接工作，我做了一些小更改，您可以在这里看到:serialize.py 我得到了以下结果:

他们还提到，通过将文本数据转换为分类数据，序列化速度要快得多。在他们的测试中，大约是10倍的速度(另见测试代码)。

编辑:pickle的时间比CSV的时间长可以用所使用的数据格式来解释。默认情况下，pickle使用可打印的ASCII表示，这会生成更大的数据集。然而，从图中可以看出，使用更新的二进制数据格式(版本2,pickle-p2)的pickle加载时间要短得多。

其他参考资料:

在“最快的Python库来读取CSV文件”这个问题中，有一个非常详细的答案，它比较了不同的库来读取CSV文件的基准。结果是，对于读取csv文件，numpy.fromfile是最快的。另一个序列化测试显示msgpack, usjson和cPickle在序列化中是最快的。

2015-11-06 15:24:10

Pyarrow跨版本兼容性

总的来说，pyarrow/feather(来自pandas/msgpack的弃用警告)。然而，我有一个挑战与pyarrow的瞬态在规范中的数据序列化pyarrow 0.15.1不能反序列化与0.16.0 ARROW-7961。我使用序列化使用redis，所以必须使用二进制编码。

我重新测试了各种选择(使用jupyter笔记本电脑)

import sys, pickle, zlib, warnings, io
class foocls:
    def pyarrow(out): return pa.serialize(out).to_buffer().to_pybytes()
    def msgpack(out): return out.to_msgpack()
    def pickle(out): return pickle.dumps(out)
    def feather(out): return out.to_feather(io.BytesIO())
    def parquet(out): return out.to_parquet(io.BytesIO())

warnings.filterwarnings("ignore")
for c in foocls.__dict__.values():
    sbreak = True
    try:
        c(out)
        print(c.__name__, "before serialization", sys.getsizeof(out))
        print(c.__name__, sys.getsizeof(c(out)))
        %timeit -n 50 c(out)
        print(c.__name__, "zlib", sys.getsizeof(zlib.compress(c(out))))
        %timeit -n 50 zlib.compress(c(out))
    except TypeError as e:
        if "not callable" in str(e): sbreak = False
        else: raise
    except (ValueError) as e: print(c.__name__, "ERROR", e)
    finally: 
        if sbreak: print("=+=" * 30)        
warnings.filterwarnings("default")

对我的数据帧(在出jupyter变量)具有以下结果

pyarrow before serialization 533366
pyarrow 120805
1.03 ms ± 43.9 µs per loop (mean ± std. dev. of 7 runs, 50 loops each)
pyarrow zlib 20517
2.78 ms ± 81.8 µs per loop (mean ± std. dev. of 7 runs, 50 loops each)
=+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+=
msgpack before serialization 533366
msgpack 109039
1.74 ms ± 72.8 µs per loop (mean ± std. dev. of 7 runs, 50 loops each)
msgpack zlib 16639
3.05 ms ± 71.7 µs per loop (mean ± std. dev. of 7 runs, 50 loops each)
=+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+=
pickle before serialization 533366
pickle 142121
733 µs ± 38.3 µs per loop (mean ± std. dev. of 7 runs, 50 loops each)
pickle zlib 29477
3.81 ms ± 60.4 µs per loop (mean ± std. dev. of 7 runs, 50 loops each)
=+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+=
feather ERROR feather does not support serializing a non-default index for the index; you can .reset_index() to make the index into column(s)
=+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+=
parquet ERROR Nested column branch had multiple children: struct<x: double, y: double>
=+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+==+=

羽毛和拼花不适合我的数据框架。我将继续使用pyarrow。但是我会补充腌黄瓜(没有压缩)。写入缓存时，存储pyarrow和pickle序列化表单。如果pyarrow反序列化失败，则从缓存读取回退到pickle时。

2020-02-29 14:03:03

最简单的方法是使用to_pickle来pickle它:

df.to_pickle(file_name)  # where to save it, usually as a .pkl

然后你可以使用以下命令将其加载回来:

df = pd.read_pickle(file_name)

注意:在0.11.1之前，save和load是唯一的方法(现在它们已被弃用，分别支持to_pickle和read_pickle)。

另一个流行的选择是使用HDF5 (pytables)，它为大型数据集提供了非常快的访问时间:

import pandas as pd
store = pd.HDFStore('store.h5')

store['df'] = df  # save it
store['df']  # load it

更高级的策略在烹饪书中讨论。

从0.13开始，也有msgpack，它可能在互操作性方面更好，作为JSON的更快替代品，或者如果你有python对象/文本较多的数据(参见这个问题)。

2013-06-13 23:13:34

如前所述，有不同的选项和文件格式(HDF5, JSON, CSV, parquet, SQL)来存储数据帧。然而，pickle不是一级公民(取决于你的设置)，因为:

泡菜是一个潜在的安全隐患。形成pickle的Python文档:

警告pickle模块不安全恶意构造的数据。对象接收的数据永远不能解pickle 不受信任或未经身份验证的源。

泡菜很慢。找到这里和这里的基准。

根据您的设置/使用情况，这两个限制都不适用，但我不建议将pickle作为pandas数据帧的默认持久性。

2019-04-11 06:31:32

如果我理解正确的话，你已经在使用pandas.read_csv()，但想要加快开发过程，这样你就不必每次编辑脚本时都加载文件，对吗?我有一些建议:

you could load in only part of the CSV file using pandas.read_csv(..., nrows=1000) to only load the top bit of the table, while you're doing the development use ipython for an interactive session, such that you keep the pandas table in memory as you edit and reload your script. convert the csv to an HDF5 table updated use DataFrame.to_feather() and pd.read_feather() to store data in the R-compatible feather binary format that is super fast (in my hands, slightly faster than pandas.to_pickle() on numeric data and much faster on string data).

您可能还会对stackoverflow上的答案感兴趣。

2013-06-13 23:28:07

如何可逆地存储和加载一个熊猫数据帧到/从磁盘

推荐文章

最新文章

标签