如何使用sed删除文本文件中包含特定字符串的所有行?
当前回答
我用一个包含大约345000行的文件制作了一个小型基准测试。在这种情况下,使用grep的方法似乎比sed方法快15倍左右。
我已经尝试了使用和不使用设置LC_ALL=C,这似乎不会显著改变定时。搜索字符串(CDGA_00004.pdbqt.gz.tar)位于文件的中间位置。
以下是命令和计时:
time sed -i "/CDGA_00004.pdbqt.gz.tar/d" /tmp/input.txt
real 0m0.711s
user 0m0.179s
sys 0m0.530s
time perl -ni -e 'print unless /CDGA_00004.pdbqt.gz.tar/' /tmp/input.txt
real 0m0.105s
user 0m0.088s
sys 0m0.016s
time (grep -v CDGA_00004.pdbqt.gz.tar /tmp/input.txt > /tmp/input.tmp; mv /tmp/input.tmp /tmp/input.txt )
real 0m0.046s
user 0m0.014s
sys 0m0.019s
其他回答
cat filename | grep -v "pattern" > filename.1
mv filename.1 filename
您也可以使用此选项:
grep -v 'pattern' filename
这里,-v将只打印图案以外的图案(这意味着反转匹配)。
使用GNU sed的简单方法是:
sed --in-place '/some string here/d' yourfile
此解决方案适用于对多个文件执行相同的操作。
for file in *.txt; do grep -v "Matching Text" $file > temp_file.txt; mv temp_file.txt $file; done
我用一个包含大约345000行的文件制作了一个小型基准测试。在这种情况下,使用grep的方法似乎比sed方法快15倍左右。
我已经尝试了使用和不使用设置LC_ALL=C,这似乎不会显著改变定时。搜索字符串(CDGA_00004.pdbqt.gz.tar)位于文件的中间位置。
以下是命令和计时:
time sed -i "/CDGA_00004.pdbqt.gz.tar/d" /tmp/input.txt
real 0m0.711s
user 0m0.179s
sys 0m0.530s
time perl -ni -e 'print unless /CDGA_00004.pdbqt.gz.tar/' /tmp/input.txt
real 0m0.105s
user 0m0.088s
sys 0m0.016s
time (grep -v CDGA_00004.pdbqt.gz.tar /tmp/input.txt > /tmp/input.tmp; mv /tmp/input.tmp /tmp/input.txt )
real 0m0.046s
user 0m0.014s
sys 0m0.019s
推荐文章
- 为什么用反斜杠开始shell命令?
- 遍历带空格的文件列表
- 在Bash中检查传递的参数是否为文件或目录
- 递归复制文件夹,不包括一些文件夹
- 如何在文件中grep不区分大小写的字符串?
- 如何使用文件的行作为命令的参数?
- 如何从命令输出中获得第二列?
- 寻找ALT+LeftArrowKey解决方案在zsh
- 如何做一个非贪婪匹配在grep?
- 在python shell中按方向键时看到转义字符
- Shell命令查找两个文件中的公共行
- 当存储命令输出到变量时,如何保存换行符?
- 如何从shell执行XPath一行程序?
- 如何使用Bash递归创建不存在的子目录?
- 如何将所有子目录中的所有文件压缩成bash中的一个压缩文件