我有一个20个文件名的列表,比如['file1.txt', 'file2.txt',…]。我想写一个Python脚本将这些文件连接到一个新文件中。我可以通过f = open(…)打开每个文件,通过调用f.r edline()逐行读取,并将每行写入新文件。这对我来说似乎不是很“优雅”,尤其是我必须一行一行地读/写的部分。
在Python中是否有更“优雅”的方式来做到这一点?
我有一个20个文件名的列表,比如['file1.txt', 'file2.txt',…]。我想写一个Python脚本将这些文件连接到一个新文件中。我可以通过f = open(…)打开每个文件,通过调用f.r edline()逐行读取,并将每行写入新文件。这对我来说似乎不是很“优雅”,尤其是我必须一行一行地读/写的部分。
在Python中是否有更“优雅”的方式来做到这一点?
当前回答
我不知道什么叫优雅,但这招管用:
import glob
import os
for f in glob.glob("file*.txt"):
os.system("cat "+f+" >> OutFile.txt")
其他回答
这正是fileinput的作用:
import fileinput
with open(outfilename, 'w') as fout, fileinput.input(filenames) as fin:
for line in fin:
fout.write(line)
对于这个用例,它实际上并不比手动遍历文件简单多少,但在其他情况下,使用单个迭代器遍历所有文件,就像它们是单个文件一样非常方便。(此外,fileinput在完成后立即关闭每个文件的事实意味着不需要使用或关闭每个文件,但这只是节省一行,不是什么大不了的事情。)
在fileinput中还有一些其他漂亮的特性,比如通过过滤每一行来对文件进行就地修改的能力。
正如评论中所指出的,并在另一篇文章中讨论,Python 2.7的文件输入将无法正常工作。这里略有修改,使代码符合Python 2.7
with open('outfilename', 'w') as fout:
fin = fileinput.input(filenames)
for line in fin:
fout.write(line)
fin.close()
查看File对象的.read()方法:
http://docs.python.org/2/tutorial/inputoutput.html#methods-of-file-objects
你可以这样做:
concat = ""
for file in files:
concat += open(file).read()
或者更“优雅”的python方式:
concat = ''.join([open(f).read() for f in files])
根据这篇文章,http://www.skymind.com/~ocrow/python_string/也将是最快的。
UNIX命令有什么问题?(假设你不是在Windows上工作):
Ls | xargs cat | tee output.txt完成这项工作(如果你想要,你可以从python用subprocess调用它)
如果目录中有很多文件,那么glob2可能是生成文件名列表的更好选择,而不是手工编写它们。
import glob2
filenames = glob2.glob('*.txt') # list of all .txt files in the directory
with open('outfile.txt', 'w') as f:
for file in filenames:
with open(file) as infile:
f.write(infile.read()+'\n')
@inspectorG4dget答案的替代答案(到2016年3月29日为止的最佳答案)。我测试了3个436MB的文件。
@inspectorG4dget答案:162秒
解决方案:125秒
from subprocess import Popen
filenames = ['file1.txt', 'file2.txt', 'file3.txt']
fbatch = open('batch.bat','w')
str ="type "
for f in filenames:
str+= f + " "
fbatch.write(str + " > file4results.txt")
fbatch.close()
p = Popen("batch.bat", cwd=r"Drive:\Path\to\folder")
stdout, stderr = p.communicate()
其思想是创建一个批处理文件并执行它,利用“旧的好技术”。它是半python,但运行速度更快。适用于windows。