如何使用sed删除文本文件中包含特定字符串的所有行?
要删除该行并将输出打印为标准输出,请执行以下操作:
sed '/pattern to match/d' ./infile
要直接修改文件,请执行以下操作:
sed -i '/pattern to match/d' ./infile
相同,但对于BSD sed(Mac OS X和FreeBSD)-不适用于GNU sed:
sed -i '' '/pattern to match/d' ./infile
要直接修改文件(并创建备份),请使用BSD和GNU sed:
sed -i.bak '/pattern to match/d' ./infile
除了sed之外,还有许多其他方法可以删除具有特定字符串的行:
AWK
awk '!/pattern/' file > temp && mv temp file
红宝石(1.9+)
ruby -i.bak -ne 'print if not /test/' file
Perl
perl -ni.bak -e "print unless /pattern/" file
Shell(bash 3.2及更高版本)
while read -r line
do
[[ ! $line =~ pattern ]] && echo "$line"
done <file > o
mv o file
GNU grep
grep -v "pattern" file > temp && mv temp file
当然,sed(打印相反内容比实际删除更快):
sed -n '/pattern/!p' file
可以使用sed替换文件中的行。然而,它似乎比使用grep将反转转换为第二个文件,然后将第二个移动到原始文件上要慢得多。
e.g.
sed -i '/pattern/d' filename
or
grep -v "pattern" filename > filename2; mv filename2 filename
无论如何,第一个命令在我的机器上需要3倍的时间。
perl -i -nle'/regexp/||print' file1 file2 file3
perl -i.bk -nle'/regexp/||print' file1 file2 file3
第一个命令在原地(-i)编辑文件。
第二个命令执行相同的操作,但通过在文件名中添加.bk来保留原始文件的副本或备份(.bk可以更改为任何内容)。
您可以考虑使用ex(这是一个标准的基于Unix命令的编辑器):
ex +g/match/d -cwq file
哪里:
+执行给定的Ex命令(man-Ex),与执行wq(写入和退出)的-c相同g/match/d-删除具有给定匹配的行的Ex命令,请参见:g的幂
上面的示例是一种符合POSIX的方法,用于根据Unix.SE和POSIX规范中的这篇文章就地编辑文件。
与sed的区别在于:
sed是流编辑器,而不是文件编辑器。AshFAQ
除非您喜欢不可移植的代码、I/O开销和其他一些不良副作用。因此,基本上一些参数(如in-place/-i)是非标准的FreeBSD扩展,可能在其他操作系统上不可用。
我在Mac上挣扎着。另外,我需要使用变量替换来完成。
所以我使用了:
sed-i“”/$pattern/d“$文件
其中$file是需要删除的文件,$pattern是要匹配删除的模式。
我从评论中选择了“”。
这里需要注意的是在“/$pattern/d”中使用双引号。当我们使用单引号时,变量不起作用。
SED:
'James \| John/d'-詹姆斯/约翰/!“p”
AWK:
'!/詹姆斯|约翰/'/James | John/{next;}{print}
GREP(语法):
-v“詹姆斯·约翰”
如果有人想对字符串进行精确匹配,您可以使用grep-w中的-w标志来表示整数。也就是说,例如,如果要删除编号为11的行,但保留编号为111的行:
-bash-4.1$ head file
1
11
111
-bash-4.1$ grep -v "11" file
1
-bash-4.1$ grep -w -v "11" file
1
111
如果您想同时排除几个确切的模式,它也可以使用-f标志。如果“黑名单”是要从“文件”中删除的每一行都有多个模式的文件:
grep -w -v -f blacklist file
我用一个包含大约345000行的文件制作了一个小型基准测试。在这种情况下,使用grep的方法似乎比sed方法快15倍左右。
我已经尝试了使用和不使用设置LC_ALL=C,这似乎不会显著改变定时。搜索字符串(CDGA_00004.pdbqt.gz.tar)位于文件的中间位置。
以下是命令和计时:
time sed -i "/CDGA_00004.pdbqt.gz.tar/d" /tmp/input.txt
real 0m0.711s
user 0m0.179s
sys 0m0.530s
time perl -ni -e 'print unless /CDGA_00004.pdbqt.gz.tar/' /tmp/input.txt
real 0m0.105s
user 0m0.088s
sys 0m0.016s
time (grep -v CDGA_00004.pdbqt.gz.tar /tmp/input.txt > /tmp/input.tmp; mv /tmp/input.tmp /tmp/input.txt )
real 0m0.046s
user 0m0.014s
sys 0m0.019s
在控制台中显示处理过的文本
cat filename | sed '/text to remove/d'
将处理过的文本保存到文件中
cat filename | sed '/text to remove/d' > newfile
将已处理的文本信息附加到现有文件
cat filename | sed '/text to remove/d' >> newfile
要处理已处理的文本,在这种情况下,请删除已删除内容的更多行
cat filename | sed '/text to remove/d' | sed '/remove this too/d' | more
more将一次显示一页的文本块。
您可以使用good-old ed以与使用ex的答案类似的方式编辑文件。在这种情况下,最大的区别是ed通过标准输入接受命令,而不是像ex can那样作为命令行参数。在脚本中使用它时,通常的方法是使用printf将命令传递给它:
printf "%s\n" "g/pattern/d" w | ed -s filename
或与heredoc:
ed -s filename <<EOF
g/pattern/d
w
EOF
也可以删除文件中的一系列行。例如,删除SQL文件中的存储过程。
sed'/CREATE PROCEDURE.*/,/END/d'sql行.sql
这将删除CREATE PROCEDURE和END;之间的所有行;。
我用这个sed命令清理了许多sql文件。
奇怪的是,公认的答案实际上并没有直接回答这个问题。这个问题问的是如何使用sed替换字符串,但答案似乎预设了如何将任意字符串转换为正则表达式的知识。
许多编程语言库具有执行这种转换的功能,例如。
python: re.escape(STRING)
ruby: Regexp.escape(STRING)
java: Pattern.quote(STRING)
但是如何在命令行上执行呢?
由于这是一个面向sed的问题,一种方法是使用sed本身:
sed 's/\([\[/({.*+^$?]\)/\\\1/g'
因此,给定一个任意字符串$string,我们可以编写如下内容:
re=$(sed 's/\([\[({.*+^$?]\)/\\\1/g' <<< "$STRING")
sed "/$re/d" FILE
或作为一个衬垫:
sed "/$(sed 's/\([\[/({.*+^$?]\)/\\\1/g' <<< "$STRING")/d"
其变化如本页其他地方所述。
此解决方案适用于对多个文件执行相同的操作。
for file in *.txt; do grep -v "Matching Text" $file > temp_file.txt; mv temp_file.txt $file; done
推荐文章
- 在命令行中使用Firefox截取完整页面的截图
- 仅在文件不存在时才将行追加到文件中
- 文件中最长的一行
- [: shell编程中的意外操作符
- 如何在变量中存储标准错误
- 在OS X上使用sed进行就地编辑
- 如何在Python中实现常见的bash习语?
- 如何通过docker运行传递参数到Shell脚本
- 如何从查找“类型d”中排除此/ current / dot文件夹
- 只使用md5sum获取哈希值(没有文件名)
- 使用sh shell比较字符串
- 在Bash中测试非零长度字符串:[-n "$var"]或["$var"]
- 如何创建Bash别名?
- 如何设置ssh超时时间?
- 将所有变量从一个shell脚本传递到另一个?