我在日常工作中使用SAS,它的核心支持非常棒。然而,SAS作为一款软件,由于许多其他原因而很糟糕。

有一天,我希望用python和pandas来取代我对SAS的使用,但我目前缺乏用于大型数据集的核心工作流。我不是在谈论需要分布式网络的“大数据”,而是那些大到无法装入内存,但又小到可以装入硬盘的文件。

我的第一个想法是使用HDFStore将大型数据集保存在磁盘上,只将我需要的数据块放入数据框架中进行分析。其他人提到MongoDB是一种更容易使用的替代方案。我的问题是:

完成以下任务的最佳实践工作流程是什么:

将平面文件加载到永久的磁盘数据库结构中 查询该数据库以检索数据以输入pandas数据结构 在操作熊猫的碎片后更新数据库

现实世界的例子将非常受欢迎,尤其是那些在“大数据”上使用熊猫的人。

编辑—我希望这样工作的一个例子:

迭代地导入一个大型平面文件,并将其存储在一个永久的磁盘数据库结构中。这些文件通常太大,无法装入内存。 为了使用Pandas,我希望读取这些数据的子集(通常一次只有几列),这些子集可以放入内存中。 我将通过对所选列执行各种操作来创建新列。 然后,我必须将这些新列追加到数据库结构中。

我正在努力寻找执行这些步骤的最佳实践方法。阅读关于熊猫和pytables的链接,似乎添加一个新列可能是一个问题。

编辑——具体回答杰夫的问题:

I am building consumer credit risk models. The kinds of data include phone, SSN and address characteristics; property values; derogatory information like criminal records, bankruptcies, etc... The datasets I use every day have nearly 1,000 to 2,000 fields on average of mixed data types: continuous, nominal and ordinal variables of both numeric and character data. I rarely append rows, but I do perform many operations that create new columns. Typical operations involve combining several columns using conditional logic into a new, compound column. For example, if var1 > 2 then newvar = 'A' elif var2 = 4 then newvar = 'B'. The result of these operations is a new column for every record in my dataset. Finally, I would like to append these new columns into the on-disk data structure. I would repeat step 2, exploring the data with crosstabs and descriptive statistics trying to find interesting, intuitive relationships to model. A typical project file is usually about 1GB. Files are organized into such a manner where a row consists of a record of consumer data. Each row has the same number of columns for every record. This will always be the case. It's pretty rare that I would subset by rows when creating a new column. However, it's pretty common for me to subset on rows when creating reports or generating descriptive statistics. For example, I might want to create a simple frequency for a specific line of business, say Retail credit cards. To do this, I would select only those records where the line of business = retail in addition to whichever columns I want to report on. When creating new columns, however, I would pull all rows of data and only the columns I need for the operations. The modeling process requires that I analyze every column, look for interesting relationships with some outcome variable, and create new compound columns that describe those relationships. The columns that I explore are usually done in small sets. For example, I will focus on a set of say 20 columns just dealing with property values and observe how they relate to defaulting on a loan. Once those are explored and new columns are created, I then move on to another group of columns, say college education, and repeat the process. What I'm doing is creating candidate variables that explain the relationship between my data and some outcome. At the very end of this process, I apply some learning techniques that create an equation out of those compound columns.

我很少向数据集中添加行。我几乎总是会创建新的列(统计/机器学习术语中的变量或特征)。


当前回答

如果您选择创建数据管道的简单路径,将其分解为多个较小的文件,可以考虑Ruffus。

其他回答

我最近遇到了一个类似的问题。我发现,简单地读取数据块,并在写入数据块时将其追加到相同的csv中就可以了。我的问题是根据另一个表中的信息添加一个日期列,使用某些列的值如下所示。这可能会帮助那些对dask和hdf5感到困惑但更熟悉熊猫的人,比如我自己。

def addDateColumn():
"""Adds time to the daily rainfall data. Reads the csv as chunks of 100k 
   rows at a time and outputs them, appending as needed, to a single csv. 
   Uses the column of the raster names to get the date.
"""
    df = pd.read_csv(pathlist[1]+"CHIRPS_tanz.csv", iterator=True, 
                     chunksize=100000) #read csv file as 100k chunks

    '''Do some stuff'''

    count = 1 #for indexing item in time list 
    for chunk in df: #for each 100k rows
        newtime = [] #empty list to append repeating times for different rows
        toiterate = chunk[chunk.columns[2]] #ID of raster nums to base time
        while count <= toiterate.max():
            for i in toiterate: 
                if i ==count:
                    newtime.append(newyears[count])
            count+=1
        print "Finished", str(chunknum), "chunks"
        chunk["time"] = newtime #create new column in dataframe based on time
        outname = "CHIRPS_tanz_time2.csv"
        #append each output to same csv, using no header
        chunk.to_csv(pathlist[2]+outname, mode='a', header=None, index=None)

拼花文件格式非常适合您所描述的用例。使用pd可以有效地读入列的特定子集。Read_parquet (path_to_file, columns=["foo", "bar"])

https://pandas.pydata.org/docs/reference/api/pandas.read_parquet.html

这就是pymongo的情况。我还在python中使用sql server, sqlite, HDF, ORM (SQLAlchemy)进行了原型设计。首先,pymongo是一个基于文档的DB,所以每个人都是一个文档(属性字典)。很多人组成一个集合,你可以有很多集合(人,股票市场,收入)。

pd。注意:我在read_csv中使用chunksize来保持5到10k的记录(如果socket更大,pymongo会丢弃socket)

aCollection.insert((a[1].to_dict() for a in df.iterrows()))

查询:gt = >…

pd.DataFrame(list(mongoCollection.find({'anAttribute':{'$gt':2887000, '$lt':2889000}})))

.find()返回一个迭代器,所以我通常使用ichunked来切成更小的迭代器。

因为我通常会将10个数据源粘贴在一起,那么join呢:

aJoinDF = pandas.DataFrame(list(mongoCollection.find({'anAttribute':{'$in':Att_Keys}})))

然后(在我的情况下,有时我必须agg对aJoinDF首先在它的“可合并”。)

df = pandas.merge(df, aJoinDF, on=aKey, how='left')

然后你可以通过下面的更新方法将新的信息写入你的主集合。(逻辑集合vs物理数据源)。

collection.update({primarykey:foo},{key:change})

对于较小的查找,只需反规范化。例如,文档中有代码,只需添加字段代码文本,并在创建文档时进行字典查找。

现在你已经有了一个很好的基于人的数据集,你可以在每个情况下释放你的逻辑,并创建更多的属性。最后,你可以把你的3到内存max关键指标读入pandas,并做枢轴/agg/数据探索。这适用于我的300万条记录的数字/大文本/类别/代码/浮动…

您还可以使用MongoDB内置的两种方法(MapReduce和聚合框架)。这里有更多关于聚合框架的信息,因为它似乎比MapReduce更简单,而且看起来很适合快速聚合工作。注意,我不需要定义字段或关系,并且可以向文档添加项。在快速变化的numpy, pandas, python工具集的当前状态下,MongoDB帮助我开始工作:)

我认为上面的答案遗漏了一个我认为非常有用的简单方法。

当我有一个文件太大而无法在内存中加载时,我将该文件分解为多个较小的文件(按行或cols)

例如:如果有30天的交易数据,大小约为30GB,我将其分解为每天大小约为1GB的文件。我随后分别处理每个文件,并在最后汇总结果

最大的优点之一是它允许并行处理文件(多线程或多线程)。

另一个优点是文件操作(如示例中的添加/删除日期)可以通过常规shell命令完成,这在更高级/复杂的文件格式中是不可能的

这种方法并不能覆盖所有的场景,但是在很多场景中都非常有用

我发现一个对大型数据用例很有帮助的技巧是通过将浮点精度降低到32位来减少数据量。它并不适用于所有情况,但在许多应用程序中,64位精度是多余的,节省2倍内存是值得的。让一个明显的观点变得更加明显:

>>> df = pd.DataFrame(np.random.randn(int(1e8), 5))
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000000 entries, 0 to 99999999
Data columns (total 5 columns):
...
dtypes: float64(5)
memory usage: 3.7 GB

>>> df.astype(np.float32).info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000000 entries, 0 to 99999999
Data columns (total 5 columns):
...
dtypes: float32(5)
memory usage: 1.9 GB