快速读取非常大的表作为数据帧

我有一个非常大的表(3000万行)，我想在r中作为数据框架加载，read.table()有很多方便的特性，但似乎在实现中有很多逻辑会减慢速度。在我的例子中，我假设我事先知道列的类型，表不包含任何列标题或行名，也没有任何需要担心的病态字符。

我知道使用scan()将表读入为列表可以相当快，例如:

datalist <- scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0)))

但我试图将其转换为数据框架的一些尝试似乎将上述性能降低了6倍:

df <- as.data.frame(scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0))))

有更好的办法吗?或者完全不同的解决问题的方法?

当前回答

这个问题之前在R-Help上被问到过，所以值得回顾一下。

一个建议是使用readChar()，然后用strsplit()和substr()对结果进行字符串操作。您可以看到readChar所涉及的逻辑比read.table要少得多。

我不知道这里内存是否是一个问题，但您可能还想看看HadoopStreaming包。它使用Hadoop，这是一个MapReduce框架，设计用于处理大型数据集。为此，您将使用hsTableReader函数。这是一个例子(但是学习Hadoop有一个学习曲线):

str <- "key1\t3.9\nkey1\t8.9\nkey1\t1.2\nkey1\t3.9\nkey1\t8.9\nkey1\t1.2\nkey2\t9.9\nkey2\"
cat(str)
cols = list(key='',val=0)
con <- textConnection(str, open = "r")
hsTableReader(con,cols,chunkSize=6,FUN=print,ignoreKey=TRUE)
close(con)

这里的基本思想是将数据导入分解成块。您甚至可以使用一个并行框架(例如snow)，并通过分割文件来并行运行数据导入，但对于大型数据集来说，这是没有帮助的，因为您将遇到内存限制，这就是为什么map-reduce是一种更好的方法。

2009-11-13 15:18:57

其他回答

奇怪的是，多年来一直没有人回答这个问题的底部，尽管这是一个很重要的问题——data.frames只是具有正确属性的列表，所以如果你有大量的数据，你不想使用as.data.frame或类似的列表。简单地将列表就地“转换”为数据帧要快得多:

attr(df, "row.names") <- .set_row_names(length(df[[1]]))
class(df) <- "data.frame"

这不会复制数据，所以它是即时的(不像所有其他方法)。它假设您已经相应地在列表中设置了names()。

[至于将大数据加载到R中——就我个人而言，我将它们按列转储到二进制文件中，并使用readBin()——这是迄今为止最快的方法(除了映射)，并且只受磁盘速度的限制。与二进制数据相比，解析ASCII文件本质上是缓慢的(即使是在C语言中)。

2012-12-20 04:01:40

一个小的附加点值得一提。如果你有一个非常大的文件，你可以在运行中计算行数(如果没有头文件)使用(其中bedGraph是你的文件在你的工作目录中的名称):

>numRow=as.integer(system(paste("wc -l", bedGraph, "| sed 's/[^0-9.]*\\([0-9.]*\\).*/\\1/'"), intern=T))

你可以在read。csv, read中使用。表格

>system.time((BG=read.table(bedGraph, nrows=numRow, col.names=c('chr', 'start', 'end', 'score'),colClasses=c('character', rep('integer',3)))))
   user  system elapsed 
 25.877   0.887  26.752 
>object.size(BG)
203949432 bytes

2013-11-28 17:20:55

而不是传统的阅读。我觉得fread是一个更快的函数。指定额外的属性，如只选择所需的列，指定colclasses和字符串作为因素，将减少导入文件的时间。

data_frame <- fread("filename.csv",sep=",",header=FALSE,stringsAsFactors=FALSE,select=c(1,4,5,6,7),colClasses=c("as.numeric","as.character","as.numeric","as.Date","as.Factor"))

2015-04-18 07:22:01

一开始我没有看到这个问题，几天后我问了一个类似的问题。我将记下我之前的问题，但我认为我应该在这里添加一个答案，以解释我如何使用sqldf()来做到这一点。

关于将2GB或更多的文本数据导入R数据帧的最佳方法，已经有了一些讨论。昨天我写了一篇关于使用sqldf()将数据导入SQLite作为暂存区，然后将它从SQLite吸到r的博客文章，这对我来说真的很好。我能够在不到5分钟的时间内提取2GB(3列，40mm行)的数据。相比之下，read.csv命令运行了一整夜，始终没有完成。

下面是我的测试代码:

设置测试数据:

bigdf <- data.frame(dim=sample(letters, replace=T, 4e7), fact1=rnorm(4e7), fact2=rnorm(4e7, 20, 50))
write.csv(bigdf, 'bigdf.csv', quote = F)

在运行以下导入例程之前，我重新启动R:

library(sqldf)
f <- file("bigdf.csv")
system.time(bigdf <- sqldf("select * from f", dbname = tempfile(), file.format = list(header = T, row.names = F)))

我让下面这行写了一整晚，但始终没有写完:

system.time(big.df <- read.csv('bigdf.csv'))

2009-11-30 15:48:11

这个问题之前在R-Help上被问到过，所以值得回顾一下。

一个建议是使用readChar()，然后用strsplit()和substr()对结果进行字符串操作。您可以看到readChar所涉及的逻辑比read.table要少得多。

str <- "key1\t3.9\nkey1\t8.9\nkey1\t1.2\nkey1\t3.9\nkey1\t8.9\nkey1\t1.2\nkey2\t9.9\nkey2\"
cat(str)
cols = list(key='',val=0)
con <- textConnection(str, open = "r")
hsTableReader(con,cols,chunkSize=6,FUN=print,ignoreKey=TRUE)
close(con)

2009-11-13 15:18:57

快速读取非常大的表作为数据帧

推荐文章

最新文章

标签