我需要使用bash脚本从一个巨大的文本文件中反复删除第一行。
现在我正在使用sed - I -e "1d" $FILE -但它需要大约一分钟的时间来删除。
有没有更有效的方法来实现这个目标?
我需要使用bash脚本从一个巨大的文本文件中反复删除第一行。
现在我正在使用sed - I -e "1d" $FILE -但它需要大约一分钟的时间来删除。
有没有更有效的方法来实现这个目标?
当前回答
你可以编辑文件:使用perl的-i标志,像这样:
perl -ni -e 'print unless $. == 1' filename.txt
这将使第一行消失。Perl将需要读取和复制整个文件,但是它会将输出保存在原始文件的名称下。
其他回答
正如帕克斯所说,你可能不会比这更快。原因是几乎没有文件系统支持从文件的开头截断,所以这将是一个O(n)操作,其中n是文件的大小。不过,您可以更快地做的是用相同数量的字节(可能是空格或注释)覆盖第一行,这可能对您有用,具体取决于您正在尝试做什么(顺便说一下,这是什么?)
不,这是你能得到的最高效率。您可以编写一个C程序,它可以更快地完成这项工作(更少的启动时间和处理参数),但随着文件变大,它可能会趋向于与sed相同的速度(如果需要一分钟,我就假定它们很大)。
但是你的问题和其他问题一样,都是以解决方案为前提的。如果你能详细地告诉我们你正在尝试做什么,而不是如何做,我们可能会提出一个更好的选择。
例如,如果这是一个由其他程序B处理的文件a,一种解决方案是不去掉第一行,而是修改程序B以不同的方式处理它。
假设您的所有程序都附加到这个文件A,程序B当前在删除它之前读取并处理第一行。
您可以重新设计程序B,这样它就不会试图删除第一行,而是在文件a中维护一个持久的(可能是基于文件的)偏移量,以便下次运行时,它可以查找该偏移量,处理那里的行,并更新偏移量。
然后,在一个安静的时间(午夜?),它可以对文件a进行特殊处理,删除当前处理的所有行,并将偏移量设置为0。
对于程序来说,打开并查找文件肯定比打开并重写要快。当然,这个讨论假设您可以控制程序B。我不知道是不是这样,但如果你提供进一步的信息,也许还有其他可能的解决方案。
因为听起来我不能加快删除,我认为一个好的方法可能是像这样批量处理文件:
While file1 not empty
file2 = head -n1000 file1
process file2
sed -i -e "1000d" file1
end
这样做的缺点是,如果程序在中间被杀死(或者如果其中有一些糟糕的sql -导致“进程”部分死亡或锁定),将会有行被跳过,或者被处理两次。
(file1包含SQL代码行)
试着尾巴:
tail -n +2 "$FILE"
-n x:只打印最后x行。Tail - n5表示输入的最后5行。+号有点颠倒了参数,使tail打印除第一个x-1行以外的任何内容。尾部-n +1输出整个文件,尾部-n +2输出除第一行以外的所有内容,等等。
GNU tail比sed快得多。tail在BSD上也可用,并且-n +2标志在这两个工具中是一致的。查看FreeBSD或OS X手册页了解更多信息。
不过,BSD版本可能比sed慢得多。我不知道他们是怎么做到的;Tail应该只是逐行读取文件,而sed则执行相当复杂的操作,包括解释脚本、应用正则表达式等。
注意:您可能会忍不住使用
# THIS WILL GIVE YOU AN EMPTY FILE!
tail -n +2 "$FILE" > "$FILE"
但这将给您一个空文件。原因是重定向(>)发生在shell调用tail之前:
Shell截断文件$ file Shell为tail创建一个新进程 Shell将尾部进程的stdout重定向到$FILE tail从现在空的$FILE中读取
如果你想删除文件中的第一行,你应该使用:
tail -n +2 "$FILE" > "$FILE.tmp" && mv "$FILE.tmp" "$FILE"
&&将确保当出现问题时文件不会被覆盖。
使用split怎么样?
man csplit
csplit -k file 1 '{1}'