我试图使用grep来匹配包含两个不同字符串的行。我已经尝试了以下方法,但这匹配了包含不是我想要的string1或string2的行。
grep 'string1\|string2' filename
那么我如何匹配与grep只包含两个字符串的行?
我试图使用grep来匹配包含两个不同字符串的行。我已经尝试了以下方法,但这匹配了包含不是我想要的string1或string2的行。
grep 'string1\|string2' filename
那么我如何匹配与grep只包含两个字符串的行?
当前回答
不要尝试使用grep,而是使用awk。为了匹配grep中的2个regexp R1和R2,你会认为它会是:
grep 'R1.*R2|R2.*R1'
而在awk中则是:
awk '/R1/ && /R2/'
但是如果R2和R1重叠或者是R1的子集呢?grep命令根本不起作用,而awk命令可以。假设你想找到包含and的行:
$ echo 'theatre' | grep 'the.*heat|heat.*the'
$ echo 'theatre' | awk '/the/ && /heat/'
theatre
你必须使用2个grep和一个管道:
$ echo 'theatre' | grep 'the' | grep 'heat'
theatre
当然,如果你真的需要它们是分开的,你总是可以在awk中编写与在grep中使用的相同的regexp,并且有其他的awk解决方案,不需要在每个可能的顺序中重复regexp。
撇开这个不谈,如果您想扩展您的解决方案以匹配3个regexp R1、R2和R3呢?在grep中,这是一个糟糕的选择:
grep 'R1.*R2.*R3|R1.*R3.*R2|R2.*R1.*R3|R2.*R3.*R1|R3.*R1.*R2|R3.*R2.*R1' file
grep R1 file | grep R2 | grep R3
而在awk中,它是简洁、明显、简单、高效的:
awk '/R1/ && /R2/ && /R3/'
现在,如果您实际上想匹配字面字符串S1和S2而不是正则表达式R1和R2呢?你不能在一次调用grep中就做到这一点,你必须在调用grep之前编写代码来转义所有的RE元字符:
S1=$(sed 's/[^^]/[&]/g; s/\^/\\^/g' <<< 'R1')
S2=$(sed 's/[^^]/[&]/g; s/\^/\\^/g' <<< 'R2')
grep 'S1.*S2|S2.*S1'
或者再次使用2个grep和一个管道:
grep -F 'S1' file | grep -F 'S2'
这也是糟糕的选择,而在awk中,您只需使用字符串操作符而不是regexp操作符:
awk 'index($0,S1) && index($0.S2)'
现在,如果您想在一个段落而不是一行中匹配2个regexp呢?不能在grep中完成,在awk中是微不足道的:
awk -v RS='' '/R1/ && /R2/'
那么跨整个文件呢?同样不能在grep中完成,在awk中是微不足道的(这次我使用GNU awk用于多字符RS,为了简洁,但在任何awk中都没有太多代码,或者你可以选择一个你知道不会在RS输入中的control-char来做同样的事情):
awk -v RS='^$' '/R1/ && /R2/'
因此,如果你想在一行、段落或文件中找到多个regexp或字符串,那么不要使用grep,使用awk。
其他回答
不要尝试使用grep,而是使用awk。为了匹配grep中的2个regexp R1和R2,你会认为它会是:
grep 'R1.*R2|R2.*R1'
而在awk中则是:
awk '/R1/ && /R2/'
但是如果R2和R1重叠或者是R1的子集呢?grep命令根本不起作用,而awk命令可以。假设你想找到包含and的行:
$ echo 'theatre' | grep 'the.*heat|heat.*the'
$ echo 'theatre' | awk '/the/ && /heat/'
theatre
你必须使用2个grep和一个管道:
$ echo 'theatre' | grep 'the' | grep 'heat'
theatre
当然,如果你真的需要它们是分开的,你总是可以在awk中编写与在grep中使用的相同的regexp,并且有其他的awk解决方案,不需要在每个可能的顺序中重复regexp。
撇开这个不谈,如果您想扩展您的解决方案以匹配3个regexp R1、R2和R3呢?在grep中,这是一个糟糕的选择:
grep 'R1.*R2.*R3|R1.*R3.*R2|R2.*R1.*R3|R2.*R3.*R1|R3.*R1.*R2|R3.*R2.*R1' file
grep R1 file | grep R2 | grep R3
而在awk中,它是简洁、明显、简单、高效的:
awk '/R1/ && /R2/ && /R3/'
现在,如果您实际上想匹配字面字符串S1和S2而不是正则表达式R1和R2呢?你不能在一次调用grep中就做到这一点,你必须在调用grep之前编写代码来转义所有的RE元字符:
S1=$(sed 's/[^^]/[&]/g; s/\^/\\^/g' <<< 'R1')
S2=$(sed 's/[^^]/[&]/g; s/\^/\\^/g' <<< 'R2')
grep 'S1.*S2|S2.*S1'
或者再次使用2个grep和一个管道:
grep -F 'S1' file | grep -F 'S2'
这也是糟糕的选择,而在awk中,您只需使用字符串操作符而不是regexp操作符:
awk 'index($0,S1) && index($0.S2)'
现在,如果您想在一个段落而不是一行中匹配2个regexp呢?不能在grep中完成,在awk中是微不足道的:
awk -v RS='' '/R1/ && /R2/'
那么跨整个文件呢?同样不能在grep中完成,在awk中是微不足道的(这次我使用GNU awk用于多字符RS,为了简洁,但在任何awk中都没有太多代码,或者你可以选择一个你知道不会在RS输入中的control-char来做同样的事情):
awk -v RS='^$' '/R1/ && /R2/'
因此,如果你想在一行、段落或文件中找到多个regexp或字符串,那么不要使用grep,使用awk。
ripgrep
下面是使用rg的例子:
rg -N '(?P<p1>.*string1.*)(?P<p2>.*string2.*)' file.txt
它是最快的抓取工具之一,因为它建立在Rust的正则引擎之上,该引擎使用有限自动机、SIMD和积极的文字优化来使搜索非常快。
使用它,特别是在处理大量数据时。
参见GH-875中的相关功能请求。
正如人们建议的perl和python,以及复杂的shell脚本,这里有一个简单的awk方法:
awk '/string1/ && /string2/' filename
看了评论,得到了公认的答案:不,这没有多行;但这也不是问题作者想要的。
如果您有一个grep,其中有一个-P选项用于有限的perl regex,您可以使用
grep -P '(?=.*string1)(?=.*string2)'
它的优点是处理重叠的字符串。使用perl作为grep更直接,因为你可以更直接地指定and逻辑:
perl -ne 'print if /string1/ && /string2/'
正则表达式中的|操作符表示或。也就是说,string1或string2将匹配。你可以这样做:
grep 'string1' filename | grep 'string2'
它将把第一个命令的结果输送到第二个grep中。这应该只会给出两者都匹配的行。