用grep在一行中匹配两个字符串

我试图使用grep来匹配包含两个不同字符串的行。我已经尝试了以下方法，但这匹配了包含不是我想要的string1或string2的行。

grep 'string1\|string2' filename

那么我如何匹配与grep只包含两个字符串的行?

当前回答

不要尝试使用grep，而是使用awk。为了匹配grep中的2个regexp R1和R2，你会认为它会是:

grep 'R1.*R2|R2.*R1'

而在awk中则是:

awk '/R1/ && /R2/'

但是如果R2和R1重叠或者是R1的子集呢?grep命令根本不起作用，而awk命令可以。假设你想找到包含and的行:

$ echo 'theatre' | grep 'the.*heat|heat.*the'
$ echo 'theatre' | awk '/the/ && /heat/'
theatre

你必须使用2个grep和一个管道:

$ echo 'theatre' | grep 'the' | grep 'heat'
theatre

当然，如果你真的需要它们是分开的，你总是可以在awk中编写与在grep中使用的相同的regexp，并且有其他的awk解决方案，不需要在每个可能的顺序中重复regexp。

撇开这个不谈，如果您想扩展您的解决方案以匹配3个regexp R1、R2和R3呢?在grep中，这是一个糟糕的选择:

grep 'R1.*R2.*R3|R1.*R3.*R2|R2.*R1.*R3|R2.*R3.*R1|R3.*R1.*R2|R3.*R2.*R1' file
grep R1 file | grep R2 | grep R3

而在awk中，它是简洁、明显、简单、高效的:

awk '/R1/ && /R2/ && /R3/'

现在，如果您实际上想匹配字面字符串S1和S2而不是正则表达式R1和R2呢?你不能在一次调用grep中就做到这一点，你必须在调用grep之前编写代码来转义所有的RE元字符:

S1=$(sed 's/[^^]/[&]/g; s/\^/\\^/g' <<< 'R1')
S2=$(sed 's/[^^]/[&]/g; s/\^/\\^/g' <<< 'R2')
grep 'S1.*S2|S2.*S1'

或者再次使用2个grep和一个管道:

grep -F 'S1' file | grep -F 'S2'

这也是糟糕的选择，而在awk中，您只需使用字符串操作符而不是regexp操作符:

awk 'index($0,S1) && index($0.S2)'

现在，如果您想在一个段落而不是一行中匹配2个regexp呢?不能在grep中完成，在awk中是微不足道的:

awk -v RS='' '/R1/ && /R2/'

那么跨整个文件呢?同样不能在grep中完成，在awk中是微不足道的(这次我使用GNU awk用于多字符RS，为了简洁，但在任何awk中都没有太多代码，或者你可以选择一个你知道不会在RS输入中的control-char来做同样的事情):

awk -v RS='^$' '/R1/ && /R2/'

因此，如果你想在一行、段落或文件中找到多个regexp或字符串，那么不要使用grep，使用awk。

其他回答

假设我们需要在文件testfile中找到多个单词的计数。有两种方法

1)使用grep命令与regex匹配模式

grep -c '\<\(DOG\|CAT\)\>' testfile

2)使用egrep命令

egrep -c 'DOG|CAT' testfile

使用egrep，您无需担心表达式，只需通过管道分离器分离单词。

如果您有一个grep，其中有一个-P选项用于有限的perl regex，您可以使用

grep -P '(?=.*string1)(?=.*string2)'

它的优点是处理重叠的字符串。使用perl作为grep更直接，因为你可以更直接地指定and逻辑:

perl -ne 'print if /string1/ && /string2/'

你可以使用

grep 'string1' filename | grep 'string2'

grep 'string1.*string2\|string2.*string1' filename

git grep

下面是使用多种模式的git grep的语法:

git grep --all-match --no-index -l -e string1 -e string2 -e string3 file

您还可以将模式与布尔表达式结合使用，例如——and、——or和——not。

向git-grep求助。

——all-match当给出多个模式表达式时，指定该标志将匹配限制在包含所有匹配行的文件上。 ——no-index搜索当前目录下不受Git管理的文件。 -l/——files-with-matches/——name-only只显示文件名。 -e下一个参数是模式。默认是使用基本的regexp。

其他需要考虑的参数:

——threads使用的grep worker线程数。 -q/——quiet/——silent不输出匹配的行;当有匹配时，以状态0退出。

要更改模式类型，还可以使用-G/——basic-regexp(默认)、-F/——fixed-strings、-E/——extended-regexp、-P/——perl-regexp、-F file和其他。

推荐文章