在探索正则表达式(也称为正则表达式)时,有许多人似乎将正则表达式视为圣杯。看起来如此复杂的东西——一定是任何问题的答案。他们倾向于认为每个问题都可以用正则表达式解决。

另一方面,也有很多人不惜一切代价试图避免正则表达式。他们试图找到一种绕过正则表达式的方法,并仅仅为了它而接受额外的编码,即使正则表达式将是一个更紧凑的解决方案。

为什么正则表达式被认为如此有争议?关于它们的工作原理是否存在广泛的误解?或者正则表达式通常比较慢是一种普遍的看法?


当前回答

虽然我认为正则表达式是一个必要的工具,但关于它们最烦人的事情是有不同的实现。语法、修饰语,尤其是“贪婪”的细微差异会让事情变得非常混乱,需要反复试验,有时还会产生令人困惑的错误。

其他回答

几乎我认识的每个经常使用正则表达式的人(双关语)都有unix背景,他们使用的工具将正则视为一级编程结构,比如grep、sed、awk和Perl。由于使用正则表达式几乎没有语法开销,因此它们的效率会大大提高。

相比之下,使用正则作为外部库的语言的程序员往往不会考虑正则表达式可以带来什么。程序员的“时间成本”是如此之高,以至于a) REs从未出现在他们的培训中,b)他们不会从REs的角度“思考”,而是更喜欢使用更熟悉的模式。

我发现正则表达式有时是无价的。当我需要做一些“模糊”搜索时,可能会替换。当数据可能变化,具有一定的随机性时。 然而,当我需要做一个简单的搜索和替换,或检查字符串,我不使用正则表达式。尽管我知道很多人这样做,但他们什么都用它。这就是争议所在。

如果你想在墙上钉钉子,不要用锤子。是的,它会起作用,但等你拿到锤子,我可以在墙上钉20个钉子。

正则表达式应该用于它们设计的目的,而不是别的。

我认为学习正则表达式和保持正则表达式不受欢迎, 大多数开发人员都很懒,或者他们中的大多数人都依赖于外部库来为他们做解析……他们依赖谷歌来获得答案,甚至在论坛上询问他们问题的完整代码。 但当涉及到实现或修改/维护正则表达式时,它们就会失败。

有一个流行的说法是“朋友不让朋友使用Regex来解析HTML”

但就我而言,我已经使用Regex制作了完整的HTML解析器,我发现我自己,Regex在解析HTML字符串方面更好,无论是速度方面还是内存方面(如果你有一个想法,你要实现什么:))

在lex和yacc中用于编译器定义的正则表达式系统是很好的、非常有用和干净的。在这些系统中,表达式类型是根据其他表达式类型定义的。在perl和sed代码(等等)中常见的丑陋的畸形的不可读的行噪声巨型一行正则表达式是“有争议的”(垃圾)。

regex的最佳有效和正常用法是用于电子邮件地址格式验证。

这是一个很好的应用。

我曾经无数次在TextPad中一次性使用正则表达式来编辑平面文件、创建csv文件、创建SQL插入语句等等。

写得好的正则表达式不应该太慢。通常替代选项,比如大量的Replace调用,都是非常慢的选项。还不如一口气搞定。

许多情况只需要正则表达式,而不需要其他任何东西。

用无害字符替换特殊的非打印字符是另一种很好的用法。

我当然可以想象,有一些代码库过度使用正则表达式,从而损害了可维护性。我自己从来没见过。实际上,我因为没有充分使用正则表达式而被代码评审员避而远之。