我厌倦了总是试图猜测,如果我应该转义特殊字符,如'()[]{}|'等使用regexp的许多实现时。
它与Python、sed、grep、awk、Perl、rename、Apache、find等不同。 有没有什么规则集告诉我什么时候应该转义,什么时候不应该转义特殊字符?它是否依赖于regexp类型,如PCRE、POSIX或扩展的regexp ?
我厌倦了总是试图猜测,如果我应该转义特殊字符,如'()[]{}|'等使用regexp的许多实现时。
它与Python、sed、grep、awk、Perl、rename、Apache、find等不同。 有没有什么规则集告诉我什么时候应该转义,什么时候不应该转义特殊字符?它是否依赖于regexp类型,如PCRE、POSIX或扩展的regexp ?
当前回答
https://perldoc.perl.org/perlre.html#Quoting-metacharacters和https://perldoc.perl.org/functions/quotemeta.html
在官方文档中,这样的字符称为元字符。引用的例子:
my $regex = quotemeta($string)
s/$regex/something/
其他回答
有时候简单的转义对于你所列出的字符是不可能的。例如,在sed中,使用反斜杠来转义括号在替换字符串的左边是行不通的
sed -e 's/foo\(bar/something_else/'
我倾向于只使用一个简单的字符类定义,所以上面的表达式变成
sed -e 's/foo[(]bar/something_else/'
我发现它适用于大多数regexp实现。
顺便说一句,字符类是非常普通的regexp组件,所以它们往往适用于大多数需要在regexp中转义字符的情况。
编辑:在下面的评论之后,我只是想提到一个事实,即在查看regexp求值的行为时,您还必须考虑有限状态自动机和非有限状态自动机之间的区别。
您可能想看看“闪亮的球书”,也就是Effective Perl(经过了亚马逊的清洁链接),特别是关于正则表达式的章节,以了解regexp引擎求值类型的差异。
不是所有的世界都是一个PCRE!
无论如何,regexp与SNOBOL相比太笨拙了!这是一门有趣的编程课程!还有Simula上的那个。
啊,70年代末在新南威尔士大学学习的乐趣!(-):
对于Ionic (Typescript),你必须用双斜杠来转义字符。 例如(这是为了匹配一些特殊字符):
"^(?=.*[\\]\\[!¡\'=ªº\\-\\_ç@#$%^&*(),;\\.?\":{}|<>\+\\/])"
注意这个]- _。/字符。它们必须被一分为二。如果不这样做,代码中就会出现类型错误。
POSIX识别正则表达式的多种变体——基本正则表达式(BRE)和扩展正则表达式(ERE)。即使这样,由于POSIX标准化的实用程序的历史实现,也存在一些怪癖。
对于何时使用哪种符号,甚至给定命令使用哪种符号,并没有一个简单的规则。
看看Jeff Friedl的《精通正则表达式》这本书。
真的,没有。正则表达式语法大约有无数种;它们似乎可以归结为Perl、EMACS/GNU和AT&T,但我也总是感到惊讶。
使用Raku(以前称为Perl_6)
工作(反斜杠或引号除下划线以外的所有非字母数字字符):
~$ raku -e 'say $/ if "#.*?" ~~ m/ \# \. \* \? /; #works fine'
「#.*?」
根据Damian Conway的演讲“你所知道的关于正则表达式的一切都是错误的”,正则表达式语言有六种风格。Raku代表了对标准Perl(5)/PCRE正则表达式的重大(大约15年)重做。
在这15年中,Perl_6 / Raku语言专家决定,所有非字母数字字符(下划线除外)都应保留为Regex元字符,即使目前不存在这种用法。要将非字母数字字符(下划线除外)表示为字面量、反斜杠或转义。
因此,上面的例子打印$/ match变量,如果匹配到文字#.*?找到字符序列。下面是如果你不这样做会发生什么:#被解释为注释的开始,。点被解释为任何字符(包括空格),*星号被解释为零或多个量词,而?问号被解释为0或1量词或节俭(即非贪婪)量词-修饰语(取决于上下文):
错误:
~$ ~$ raku -e 'say $/ if "#.*?" ~~ m/ # . * ? /; #ERROR!'
===SORRY!===
Regex not terminated.
at -e:1
------> y $/ if "#.*?" ~~ m/ # . * ? /; #ERROR!⏏<EOL>
Regex not terminated.
at -e:1
------> y $/ if "#.*?" ~~ m/ # . * ? /; #ERROR!⏏<EOL>
Couldn't find terminator / (corresponding / was at line 1)
at -e:1
------> y $/ if "#.*?" ~~ m/ # . * ? /; #ERROR!⏏<EOL>
expecting any of:
/
https://docs.raku.org/language/regexes https://raku.org/