我如何在JavaScript中使用unicode感知的正则表达式?

应该有类似于\w的东西，可以匹配字母或标记类别中的任何代码点(不仅仅是ASCII码)，并且希望有像[[P*]]这样的过滤器用于标点符号等。

当前回答

正如在其他回答中提到的，JavaScript正则表达式不支持Unicode字符类。但是，有一个库确实提供了这一点:Steven Levithan的优秀XRegExp及其Unicode插件。

2010-12-15 09:37:29

其他回答

如果您正在使用Babel，那么Unicode支持已经可用。

我还发布了一个转换源代码的插件，这样你就可以编写像/^\p{L}+$/这样的正则表达式。然后将这些转换为浏览器能够理解的内容。

下面是插件的项目页面:

babel-plugin-utf-8-regex

2015-05-08 18:24:58

在JavaScript中，\w和\d是ASCII，而\s是Unicode。别问我为什么。JavaScript支持带有Unicode类别的\p，您可以使用它来模拟支持Unicode的\w和\d。

\d使用\p{N}(数字)

[\p{L}\p{N}\p{Pc}\p{M}](字母，数字，下划线，标记)

更新:不幸的是，我错了。JavaScript也不正式支持\p，尽管一些实现可能仍然支持它。JavaScript正则表达式中对Unicode的唯一支持是使用\uFFFF匹配特定的代码点。你可以在字符类的范围内使用它们。

2008-11-26 10:33:57

由于也没有找到一个好的解决方案，我很久以前写了一个小脚本，从unicode规范(v.5.0.0)下载数据，并为BMP中的每个unicode类别和子类别生成间隔(最近被一个使用自己的原生unicode支持的小Java程序所取代)。

基本上它将\p{…}到一个值范围，很像Tomalak提到的工具的输出，但是间隔可能会非常大(因为它不是处理块，而是处理分散在许多不同地方的字符)。

例如，一个正则表达式是这样写的:

var regex = unicode_hack(/\p{L}(\p{L}|\p{Nd})*/g);

会被转换成这样:

/[\u0041-\u005a\u0061-\u007a...]([...]|[\u0030-\u0039\u0660-\u0669...])*/g

我在实践中没有经常使用它，但从我的测试来看，它似乎工作得很好，所以我在这里发布，以防有人发现它有用。尽管生成的正则表达式很长(上面的示例展开后有3591个字符)，但性能似乎是可以接受的(请参阅jsFiddle中的测试;感谢@modiX和@Lwangaman的改进)。

下面是源代码(原始，27.5KB;缩小，24.9KB，没有好到哪里去…)通过不转义unicode字符，它可能会变得更小，但OTOH会有编码问题的风险，所以我就不做改动了。希望在ES6中这种事情不再需要了。

更新:这看起来与Tim Down提到的XRegExp Unicode插件中采用的策略相同，只是在这种情况下使用了常规的JavaScript正则表达式。

2012-01-19 21:28:50

这样就可以了:

/[A-Za-z\u00C0-\u00FF ]+/.exec('hipopótamo maçã pólen ñ poção água língüa')

它显式地选择一个unicode字符范围。它将适用于拉丁字符，但其他奇怪的字符可能超出这个范围。

2015-05-05 16:46:21

es6的情况

ECMAScript语言规范第6版(也通常称为ES2015)包含了unicode感知的正则表达式。必须通过正则表达式上的u修饰符启用支持。有关该特性的详细介绍和一些注意事项，请参阅ES6中支持unicode的正则表达式。

ES6在浏览器和独立的Javascript运行时(如Node.js)中被广泛采用，所以在大多数情况下使用这个特性不需要额外的努力。完整的兼容性列表:https://kangax.github.io/compat-table/es6/

es5及以下版本的情况(传统浏览器)

有一个名为regexpu的转译器，它将ES6 Unicode正则表达式转换为等效的ES5。它可以作为构建过程的一部分。在网上试试吧。

尽管JavaScript操作Unicode字符串，但它并没有实现可识别Unicode的字符类，也没有POSIX字符类或Unicode块/子范围的概念。

Issues with Unicode in JavaScript regular expressions Check your expectations here: Javascript RegExp Unicode Character Class tester (Edit: the original page is down, the Internet Archive still has a copy.) Flagrant Badassery has an article on JavaScript, Regex, and Unicode that sheds some light on the matter. Also read Regex and Unicode here on SO. Probably you have to build your own "punctuation character class". Check out the Regular Expression: Match Unicode Block Range builder (archived copy), which lets you build a JavaScript regular expression that matches characters that fall in any number of specified Unicode blocks. I just did it for the "General Punctuation" and "Supplemental Punctuation" sub-ranges, and the result is as simple and straight-forward as I would have expected it: [\u2000-\u206F\u2E00-\u2E7F] There also is XRegExp, a project that brings Unicode support to JavaScript by offering an alternative regex engine with extended capabilities. And of course, required reading: mathiasbynens.be - JavaScript has a Unicode problem:

2008-11-11 12:35:13

我如何在JavaScript中使用unicode感知的正则表达式?

推荐文章

最新文章

标签