我有一个非常大的4GB文件,当我试图读取它时,我的电脑挂了。 所以我想一块一块地读取它,在处理每一块之后,将处理过的一块存储到另一个文件中,然后读取下一块。

有什么方法可以生产这些碎片吗?

我喜欢有一个懒惰的方法。


当前回答

我也有类似的情况。不清楚你是否知道以字节为单位的块大小;我通常不这样做,但所需要的记录(行)的数量是已知的:

def get_line():
     with open('4gb_file') as file:
         for i in file:
             yield i

lines_required = 100
gen = get_line()
chunk = [i for i, j in zip(gen, range(lines_required))]

更新:谢谢nosklo。这就是我的意思。它几乎工作,除了它丢失了一行“之间”块。

chunk = [next(gen) for i in range(lines_required)]

做的把戏w/o失去任何线条,但它看起来不太好。

其他回答

f = ... # file-like object, i.e. supporting read(size) function and 
        # returning empty string '' when there is nothing to read

def chunked(file, chunk_size):
    return iter(lambda: file.read(chunk_size), '')

for data in chunked(f, 65536):
    # process the data

更新:该方法最好在https://stackoverflow.com/a/4566523/38592中解释

由于我的低声誉,我不允许评论,但SilentGhosts解决方案应该更容易与file.readlines([sizehint])

Python文件方法

编辑:SilentGhost是对的,但这应该比:

s = "" 
for i in xrange(100): 
   s += file.next()

您可以使用以下代码。

file_obj = open('big_file') 

Open()返回一个文件对象

然后使用os。获取大小的数据

file_size = os.stat('big_file').st_size

for i in range( file_size/1024):
    print file_obj.read(1024)

我认为我们可以这样写:

def read_file(path, block_size=1024): 
    with open(path, 'rb') as f: 
        while True: 
            piece = f.read(block_size) 
            if piece: 
                yield piece 
            else: 
                return

for piece in read_file(path):
    process_piece(piece)

我也有类似的情况。不清楚你是否知道以字节为单位的块大小;我通常不这样做,但所需要的记录(行)的数量是已知的:

def get_line():
     with open('4gb_file') as file:
         for i in file:
             yield i

lines_required = 100
gen = get_line()
chunk = [i for i, j in zip(gen, range(lines_required))]

更新:谢谢nosklo。这就是我的意思。它几乎工作,除了它丢失了一行“之间”块。

chunk = [next(gen) for i in range(lines_required)]

做的把戏w/o失去任何线条,但它看起来不太好。