如何可逆地存储和加载一个熊猫数据帧到/从磁盘

现在，每次运行脚本时，我都会导入一个相当大的CSV作为数据框架。是否有一个好的解决方案来保持数据帧在运行之间不断可用，这样我就不必花费所有的时间等待脚本运行?

当前回答

Arctic是一个高性能的Pandas, numpy和其他数值数据的数据存储。它位于MongoDB之上。也许对于OP来说有点过分了，但对于其他无意中看到这篇文章的人来说，值得一提

2020-09-26 09:47:13

其他回答

这里有很多很棒和充分的答案，但我想发布一个我在Kaggle上使用的测试，这个测试用不同的pandas兼容格式保存和读取大df:

https://www.kaggle.com/pedrocouto39/fast-reading-w-pickle-feather-parquet-jay

我不是作者，也不是作者的朋友，然而，当我读到这个问题时，我觉得值得一提。

CSV: 1分42秒泡菜:4.45秒羽毛:4.35秒拼花:8.31秒杰伦:8.12毫秒或者0.0812秒(超快的!)

2021-03-11 10:34:29

Pandas DataFrame有to_pickle函数，这对于保存DataFrame非常有用:

import pandas as pd

a = pd.DataFrame({'A':[0,1,0,1,0],'B':[True, True, False, False, False]})
print a
#    A      B
# 0  0   True
# 1  1   True
# 2  0  False
# 3  1  False
# 4  0  False

a.to_pickle('my_file.pkl')

b = pd.read_pickle('my_file.pkl')
print b
#    A      B
# 0  0   True
# 1  1   True
# 2  0  False
# 3  1  False
# 4  0  False

2015-11-12 21:46:29

如果我理解正确的话，你已经在使用pandas.read_csv()，但想要加快开发过程，这样你就不必每次编辑脚本时都加载文件，对吗?我有一些建议:

you could load in only part of the CSV file using pandas.read_csv(..., nrows=1000) to only load the top bit of the table, while you're doing the development use ipython for an interactive session, such that you keep the pandas table in memory as you edit and reload your script. convert the csv to an HDF5 table updated use DataFrame.to_feather() and pd.read_feather() to store data in the R-compatible feather binary format that is super fast (in my hands, slightly faster than pandas.to_pickle() on numeric data and much faster on string data).

您可能还会对stackoverflow上的答案感兴趣。

2013-06-13 23:28:07

to_pickle()的另一个非常新鲜的测试。

我总共有25个.csv文件要处理，最终的数据框架由大约2M项组成。

(注意:除了加载.csv文件，我还操作了一些数据，并通过新列扩展数据帧。)

浏览所有25个.csv文件并创建dataframe大约需要14秒。

从pkl文件加载整个数据帧的时间不到1秒

2020-08-13 07:52:52

虽然已经有一些答案，我找到了一个很好的比较，他们尝试了几种方法来序列化熊猫数据框架:有效地存储熊猫数据框架。

他们比较:

pickle:原始ASCII数据格式 cPickle，一个C库 Pickle-p2:使用更新的二进制格式 Json: standardlib Json库 json-no-index:类似json，但没有索引 msgpack:二进制JSON替代品 CSV hdfstore: HDF5存储格式

在他们的实验中，他们序列化了一个包含1,000,000行的DataFrame，并分别测试了两列:一列是文本数据，另一列是数字。他们的免责声明说:

您不应该相信以下内容适用于您的数据。您应该查看自己的数据并自己运行基准测试

他们提到的测试源代码可以在网上找到。由于这段代码不能直接工作，我做了一些小更改，您可以在这里看到:serialize.py 我得到了以下结果:

他们还提到，通过将文本数据转换为分类数据，序列化速度要快得多。在他们的测试中，大约是10倍的速度(另见测试代码)。

编辑:pickle的时间比CSV的时间长可以用所使用的数据格式来解释。默认情况下，pickle使用可打印的ASCII表示，这会生成更大的数据集。然而，从图中可以看出，使用更新的二进制数据格式(版本2,pickle-p2)的pickle加载时间要短得多。

其他参考资料:

在“最快的Python库来读取CSV文件”这个问题中，有一个非常详细的答案，它比较了不同的库来读取CSV文件的基准。结果是，对于读取csv文件，numpy.fromfile是最快的。另一个序列化测试显示msgpack, usjson和cPickle在序列化中是最快的。

2015-11-06 15:24:10

如何可逆地存储和加载一个熊猫数据帧到/从磁盘

推荐文章

最新文章

标签