如何在Python中廉价地获得一个大文件的行数?

如何以最有效的内存和时间方式获取大文件的行数?

def file_len(filename):
    with open(filename) as f:
        for i, _ in enumerate(f):
            pass
    return i + 1

当前回答

为什么下面的方法行不通呢?

import sys

# input comes from STDIN
file = sys.stdin
data = file.readlines()

# get total number of lines in file
lines = len(data)

print lines

在这种情况下，len函数使用输入行作为确定长度的方法。

2010-12-05 16:45:54

其他回答

为了完成上述方法，我尝试了fileinput模块的一个变体:

import fileinput as fi   
def filecount(fname):
        for line in fi.input(fname):
            pass
        return fi.lineno()

并将一个60mil行文件传递给上述所有方法:

mapcount : 6.1331050396
simplecount : 4.588793993
opcount : 4.42918205261
filecount : 43.2780818939
bufcount : 0.170812129974

这让我有点惊讶，fileinput是如此糟糕，比所有其他方法都要糟糕得多…

2010-05-05 11:48:21

我使用的最简单和最短的方法是:

f = open("my_file.txt", "r")
len(f.readlines())

2021-08-11 03:08:56

def count_text_file_lines(path):
    with open(path, 'rt') as file:
        line_count = sum(1 for _line in file)
    return line_count

2017-12-17 14:50:35

如果文件能放进内存，那么

with open(fname) as f:
    count = len(f.read().split(b'\n')) - 1

2018-01-18 22:29:03

如果你的文件中的所有行都是相同的长度(并且只包含ASCII字符)*，你可以非常便宜地执行以下操作:

fileSize     = os.path.getsize( pathToFile )  # file size in bytes
bytesPerLine = someInteger                    # don't forget to account for the newline character
numLines     = fileSize // bytesPerLine

*如果使用像é这样的unicode字符，我怀疑需要更多的努力来确定一行中的字节数。

2018-08-09 20:55:35

如何在Python中廉价地获得一个大文件的行数?

推荐文章

最新文章

标签