如何使用sed删除文本文件中包含特定字符串的所有行?


当前回答

从所有匹配的文件中删除行

grep -rl 'text_to_search' . | xargs sed -i '/text_to_search/d'

其他回答

奇怪的是,公认的答案实际上并没有直接回答这个问题。这个问题问的是如何使用sed替换字符串,但答案似乎预设了如何将任意字符串转换为正则表达式的知识。

许多编程语言库具有执行这种转换的功能,例如。

python: re.escape(STRING)
ruby: Regexp.escape(STRING)
java:  Pattern.quote(STRING)

但是如何在命令行上执行呢?

由于这是一个面向sed的问题,一种方法是使用sed本身:

sed 's/\([\[/({.*+^$?]\)/\\\1/g'

因此,给定一个任意字符串$string,我们可以编写如下内容:

re=$(sed 's/\([\[({.*+^$?]\)/\\\1/g' <<< "$STRING")
sed "/$re/d" FILE

或作为一个衬垫:

 sed "/$(sed 's/\([\[/({.*+^$?]\)/\\\1/g' <<< "$STRING")/d" 

其变化如本页其他地方所述。

除了sed之外,还有许多其他方法可以删除具有特定字符串的行:

AWK

awk '!/pattern/' file > temp && mv temp file

红宝石(1.9+)

ruby -i.bak -ne 'print if not /test/' file

Perl

perl -ni.bak -e "print unless /pattern/" file

Shell(bash 3.2及更高版本)

while read -r line
do
  [[ ! $line =~ pattern ]] && echo "$line"
done <file > o
mv o file

GNU grep

grep -v "pattern" file > temp && mv temp file

当然,sed(打印相反内容比实际删除更快):

sed -n '/pattern/!p' file

我用一个包含大约345000行的文件制作了一个小型基准测试。在这种情况下,使用grep的方法似乎比sed方法快15倍左右。

我已经尝试了使用和不使用设置LC_ALL=C,这似乎不会显著改变定时。搜索字符串(CDGA_00004.pdbqt.gz.tar)位于文件的中间位置。

以下是命令和计时:

time sed -i "/CDGA_00004.pdbqt.gz.tar/d" /tmp/input.txt

real    0m0.711s
user    0m0.179s
sys     0m0.530s

time perl -ni -e 'print unless /CDGA_00004.pdbqt.gz.tar/' /tmp/input.txt

real    0m0.105s
user    0m0.088s
sys     0m0.016s

time (grep -v CDGA_00004.pdbqt.gz.tar /tmp/input.txt > /tmp/input.tmp; mv /tmp/input.tmp /tmp/input.txt )

real    0m0.046s
user    0m0.014s
sys     0m0.019s

此解决方案适用于对多个文件执行相同的操作。

for file in *.txt; do grep -v "Matching Text" $file > temp_file.txt; mv temp_file.txt $file; done

您可以使用good-old ed以与使用ex的答案类似的方式编辑文件。在这种情况下,最大的区别是ed通过标准输入接受命令,而不是像ex can那样作为命令行参数。在脚本中使用它时,通常的方法是使用printf将命令传递给它:

printf "%s\n" "g/pattern/d" w | ed -s filename

或与heredoc:

ed -s filename <<EOF
g/pattern/d
w
EOF