如何使用grep跨多行找到模式?

我想找到有“abc”和“efg”的文件，这两个字符串在该文件中的不同行。一个包含以下内容的文件:

blah blah..
blah blah..
blah abc blah
blah blah..
blah blah..
blah blah..
blah efg blah blah
blah blah..
blah blah..

应该匹配。

当前回答

如果您对模式序列不感兴趣，可以使用grep。

grep -l "pattern1" filepattern*.* | xargs grep "pattern2"

例子

grep -l "vector" *.cpp | xargs grep "map"

Grep -l将找到与第一个模式匹配的所有文件，xargs将为第二个模式查找Grep。希望这能有所帮助。

其他回答

遗憾的是，你不能。来自grep文档:

grep搜索指定的输入FILEs(或标准输入，如果没有指定文件，或如果给出了一个连字符减号(-)作为文件名)，以查找包含与给定PATTERN匹配的行。

我用它从一个multi fasta文件中提取一个fasta序列，使用grep的-P选项:

grep -Pzo ">tig00000034[^>]+"  file.fasta > desired_sequence.fasta

基于perl的搜索 Z表示行以0字节结尾，而不是换行字符 O来捕获匹配的内容，因为grep返回整行(在本例中，因为您做了-z是整个文件)。

regexp的核心是[^>]，它翻译为“不大于符号”。

我不确定是否可以使用grep，但sed使它非常简单:

sed -e '/abc/,/efg/!d' [file-with-content]

我在几天前发布了一个grep替代方案，它直接支持这一点，通过多行匹配或使用条件——希望它对搜索这里的人有用。下面是示例命令的样子:

多行:

sift -lm 'abc.*efg' testfile

条件:

sift -l 'abc' testfile --followed-by 'efg'

你也可以指定'efg'必须在一定的行数内跟在'abc'后面:

sift -l 'abc' testfile --followed-within 5:'efg'

你可以在sift-tool.org上找到更多信息。

随着几个月前ugrep的发布:

ugrep 'abc(\n|.)+?efg'

这个工具是高度优化的速度。它也是GNU/BSD/PCRE-grep兼容的。

注意我们应该使用惰性重复+?，除非您想将所有efg行匹配在一起，直到文件中的最后一个efg。

推荐文章