我知道我可以否定[^bar]中的一组字符,但我需要一个正则表达式,其中否定适用于特定单词-所以在我的示例中,我如何否定一个实际的条,而不是“条中的任何字符”?
您可以使用消极的前瞻性或滞后性:
^(?!.*?bar).*
^(.(?<!bar))*?$
或者只使用基础知识:
^(?:[^b]+|b(?:$|[^a]|a(?:$|[^r])))*$
这些都与不包含bar的任何内容相匹配。
除非性能是最重要的,否则通常只需通过第二次测试来运行结果,跳过那些与您想要否定的单词相匹配的单词就更容易了。
正则表达式通常意味着您正在执行脚本编写或某种低性能任务,因此请找到一个易于阅读、易于理解和易于维护的解决方案。
下面的正则表达式将执行您想要的操作(只要支持负lookbehinds和lookahead),并正确匹配;唯一的问题是它匹配单个字符(即,每个匹配都是单个字符,而不是两个连续的“条”之间的所有字符),如果使用非常长的字符串,则可能会导致高开销。
b(?!ar)|(?<!b)a|a(?!r)|(?<!ba)r|[^bar]
要做到这一点,一个很好的方法是使用负面展望:
^(?!.*bar).*$
负先行结构是一对括号,左括号后跟问号和感叹号。在lookahead内部[是任何正则表达式模式]。
我只是想了些别的办法。它与我的第一个答案非常不同,因为它不使用正则表达式,所以我决定发布第二个答案。
在字符串上使用您选择的语言的split()方法,该方法等效于将要否定的单词作为拆分对象的参数。使用Python的示例:
>>> text = 'barbarasdbarbar 1234egb ar bar32 sdfbaraadf'
>>> text.split('bar')
['', '', 'asd', '', ' 1234egb ar ', '32 sdf', 'aadf']
这样做的好处是,至少在Python中(我不记得在Visual Basic或Java中的功能是否相同),因为“bar”之间的空字符串包含在结果列表中(尽管开头的空字符串是因为字符串开头有一个“bar”),所以它可以间接地让您知道字符串中何时重复了“bar”。如果您不想这样做,只需从列表中删除空字符串即可。
我在尝试为以下英语语句确定正则表达式时遇到了这个论坛主题:
给定一个输入字符串,匹配所有内容,除非该输入字符串正好是“bar”;例如,我想匹配“barrier”和“disbar”以及“foo”。
这是我想出的正则表达式
^(bar.+|(?!bar).*)$
我对正则表达式的英文翻译是“匹配字符串,如果它以‘bar’开头,并且它至少有一个其他字符,或者如果字符串不以‘bar‘开头。
我有一个文件名列表,我想通过这种行为(Ruby)排除某些文件名:
files = [
'mydir/states.rb', # don't match these
'countries.rb',
'mydir/states_bkp.rb', # match these
'mydir/city_states.rb'
]
excluded = ['states', 'countries']
# set my_rgx here
result = WankyAPI.filter(files, my_rgx) # I didn't write WankyAPI...
assert result == ['mydir/city_states.rb', 'mydir/states_bkp.rb']
以下是我的解决方案:
excluded_rgx = excluded.map{|e| e+'\.'}.join('|')
my_rgx = /(^|\/)((?!#{excluded_rgx})[^\.\/]*)\.rb$/
我对此应用程序的假设:
要排除的字符串位于输入的开头,或紧跟在斜线之后。允许的字符串以.rb结尾。允许的文件名没有。.rb之前的字符。
接受的答案很好,但对于正则表达式中缺少简单的子表达式否定运算符来说,这确实是一个解决方案。这就是grep-invert匹配退出的原因。因此,在*nixes中,您可以使用管道和第二个正则表达式来实现所需的结果。
grep 'something I want' | grep --invert-match 'but not these ones'
仍然是一种变通方法,但可能更容易记住。
解决方案:
^(?!.*STRING1|.*STRING2|.*STRING3).*$
xxxxxx正常
xxxSTRING1xxx KO(是否需要)
xxxSTRING2xxx KO(是否需要)
xxxSTRING3xxx KO(是否需要)
我想补充已接受的答案,并用我迟来的答案为讨论作出贡献。
@ChrisVanOpstal分享了这个正则表达式教程,这是学习正则表达式的一个很好的资源。
然而,通读起来确实很耗时。
为了便于记忆,我做了一张备忘单。
这个引用基于每个类前面的大括号[]、()和{},我觉得很容易回忆起来。
Regex = {
'single_character': ['[]', '.', {'negate':'^'}],
'capturing_group' : ['()', '|', '\\', 'backreferences and named group'],
'repetition' : ['{}', '*', '+', '?', 'greedy v.s. lazy'],
'anchor' : ['^', '\b', '$'],
'non_printable' : ['\n', '\t', '\r', '\f', '\v'],
'shorthand' : ['\d', '\w', '\s'],
}
如果它真的是一个你不想匹配的词,那么:
^(?!.*\bbar\b).*$
以上内容将匹配任何不包含单词边界上的条的字符串,也就是说,与非单词字符分隔开。但是,除非使用正确的正则表达式标志,否则上述模式中使用的句点/点(.)将与换行符不匹配:
^(?s)(?!.*\bbar\b).*$
或者:
^(?!.*\bbar\b)[\s\S]*$
我们不使用任何特殊标志,而是寻找任何空白或非空白字符。这应该涵盖每个角色。
但如果我们想匹配可能包含bar但不包含特定单词bar的单词呢?
(?!\bbar\b)\b\[A-Za-z-]*bar[a-z-]*\b
(?!/bbar\b)断言下一个输入不是单词边界上的条。\b\[A-Za-z-]*bar[A-z-]*\b匹配包含bar的单词边界上的任何单词。
参见Regex演示
推荐文章
- 使用String.split()和多个分隔符
- 从数字中移除无关紧要的尾随零?
- 最终的邮政编码和邮政正则表达式是什么?
- 删除多个空白空间
- 正则表达式不是运算符
- 如何通过正则表达式过滤熊猫行
- 我如何在JavaScript中使用unicode感知的正则表达式?
- RE错误:在Mac OS X上的非法字节序列
- Regex验证日期格式dd/mm/YYYY, dd-mm-YYYY, dd.mm。YYYY, dd mmm, dd-mmm-YYYY, dd/mmm/YYYY, dd.mmm.YYYY与闰年支持
- jQuery验证:如何为正则表达式验证添加规则?
- 正则表达式在Javascript中获得括号之间的字符串
- 如何检查有效的电子邮件地址?
- Regex邮件验证
- 如何在bash脚本中使用正则表达式否定测试?
- 如何提取位于圆括号(圆括号)之间的文本?