正则表达式:有AND运算符吗?

显然，您可以使用|(管道?)来表示OR，但是是否也有一种方法来表示AND呢?

具体来说，我希望匹配包含某个短语的所有文本段落，但没有特定的顺序。

当前回答

使用非消耗正则表达式。

典型的(例如Perl/Java)表示法是:

(? = expr)

这意味着“匹配expr，但之后继续在原始匹配点进行匹配。”

你想做多少就做多少，这将是一个“并且”。例子:

（？=匹配这个表达式)(?=也配这个)(?=哦，还有这个)

如果需要保存其中的一些数据，甚至可以在非消费表达式中添加捕获组。

其他回答

为什么不用awk呢? 用awk regex AND, OR的问题是如此简单

awk '/WORD1/ && /WORD2/ && /WORD3/' myfile

您可以将输出输送到另一个正则表达式。使用grep，你可以这样做:

grep A |

您需要像其他应答者所说的那样使用预读，但是预读必须考虑目标单词和当前匹配位置之间的其他字符。例如:

(?=.*word1)(?=.*word2)(?=.*word3)

第一个前向中的.*让它在到达"word1"之前匹配任意数量的字符。然后匹配位置被重置，第二个前向查找“word2”。再次重置，最后部分匹配“word3”;因为它是你要检查的最后一个单词，所以它没有必要出现在前瞻中，但这也无妨。

为了匹配整个段落，您需要在两端锚定正则表达式，并添加一个最后的.*来消耗剩余的字符。使用perl风格的符号，这将是:

/^(?=.*word1)(?=.*word2)(?=.*word3).*$/m

'm'修饰符用于多行模式;它允许^和$匹配段落边界(regex术语为“行边界”)。在这种情况下，重要的是不要使用's'修饰符，它允许点元字符匹配换行符以及所有其他字符。

最后，你要确保你匹配的是整个单词，而不是长单词的片段，所以你需要添加单词边界:

/^(?=.*\bword1\b)(?=.*\bword2\b)(?=.*\bword3\b).*$/m

你可以用正则表达式来做，但你可能会想用其他的表达式。例如，使用几个regexp并将它们组合在一个if子句中。

你可以用一个标准的regexp枚举所有可能的排列，像这样(以任意顺序匹配a, b和c):

(abc)|(bca)|(acb)|(bac)|(cab)|(cba)

但是，如果有多个项，这会使regexp变得非常长，而且可能效率很低。

如果您使用的是一些扩展的regexp版本，比如Perl或Java的，它们有更好的方法来实现这一点。其他答案建议使用正前向运算。

看看这个例子:

我们有两个正则表达式A和B，我们想要匹配它们，所以在伪代码中它看起来像这样:

pattern = "/A AND B/"

它可以在不使用AND操作符的情况下写成这样:

pattern = "/NOT (NOT A OR NOT B)/"

PCRE:

"/(^(^A|^B))/"

regexp_match(pattern,data)

推荐文章