如何使用sed删除文本文件中包含特定字符串的所有行?
当前回答
我发现大多数答案对我来说都没用,如果你使用vim,我发现这非常简单明了:
:g/<图案>/d
来源
其他回答
如果有人想对字符串进行精确匹配,您可以使用grep-w中的-w标志来表示整数。也就是说,例如,如果要删除编号为11的行,但保留编号为111的行:
-bash-4.1$ head file
1
11
111
-bash-4.1$ grep -v "11" file
1
-bash-4.1$ grep -w -v "11" file
1
111
如果您想同时排除几个确切的模式,它也可以使用-f标志。如果“黑名单”是要从“文件”中删除的每一行都有多个模式的文件:
grep -w -v -f blacklist file
在控制台中显示处理过的文本
cat filename | sed '/text to remove/d'
将处理过的文本保存到文件中
cat filename | sed '/text to remove/d' > newfile
将已处理的文本信息附加到现有文件
cat filename | sed '/text to remove/d' >> newfile
要处理已处理的文本,在这种情况下,请删除已删除内容的更多行
cat filename | sed '/text to remove/d' | sed '/remove this too/d' | more
more将一次显示一页的文本块。
perl -i -nle'/regexp/||print' file1 file2 file3
perl -i.bk -nle'/regexp/||print' file1 file2 file3
第一个命令在原地(-i)编辑文件。
第二个命令执行相同的操作,但通过在文件名中添加.bk来保留原始文件的副本或备份(.bk可以更改为任何内容)。
我用一个包含大约345000行的文件制作了一个小型基准测试。在这种情况下,使用grep的方法似乎比sed方法快15倍左右。
我已经尝试了使用和不使用设置LC_ALL=C,这似乎不会显著改变定时。搜索字符串(CDGA_00004.pdbqt.gz.tar)位于文件的中间位置。
以下是命令和计时:
time sed -i "/CDGA_00004.pdbqt.gz.tar/d" /tmp/input.txt
real 0m0.711s
user 0m0.179s
sys 0m0.530s
time perl -ni -e 'print unless /CDGA_00004.pdbqt.gz.tar/' /tmp/input.txt
real 0m0.105s
user 0m0.088s
sys 0m0.016s
time (grep -v CDGA_00004.pdbqt.gz.tar /tmp/input.txt > /tmp/input.tmp; mv /tmp/input.tmp /tmp/input.txt )
real 0m0.046s
user 0m0.014s
sys 0m0.019s
我发现大多数答案对我来说都没用,如果你使用vim,我发现这非常简单明了:
:g/<图案>/d
来源
推荐文章
- 如何把一个字符串分成多个变量在bash shell?
- 在命令行中使用Firefox截取完整页面的截图
- 仅在文件不存在时才将行追加到文件中
- 文件中最长的一行
- [: shell编程中的意外操作符
- 如何在变量中存储标准错误
- 在OS X上使用sed进行就地编辑
- 如何在Python中实现常见的bash习语?
- 如何通过docker运行传递参数到Shell脚本
- 如何从查找“类型d”中排除此/ current / dot文件夹
- 只使用md5sum获取哈希值(没有文件名)
- 使用sh shell比较字符串
- 在Bash中测试非零长度字符串:[-n "$var"]或["$var"]
- 如何创建Bash别名?
- 如何设置ssh超时时间?