应该有类似于\w的东西,可以匹配字母或标记类别中的任何代码点(不仅仅是ASCII码),并且希望有像[[P*]]这样的过滤器用于标点符号等。


当前回答

正如在其他回答中提到的,JavaScript正则表达式不支持Unicode字符类。但是,有一个库确实提供了这一点:Steven Levithan的优秀XRegExp及其Unicode插件。

其他回答

es6的情况

ECMAScript语言规范第6版(也通常称为ES2015)包含了unicode感知的正则表达式。必须通过正则表达式上的u修饰符启用支持。有关该特性的详细介绍和一些注意事项,请参阅ES6中支持unicode的正则表达式。

ES6在浏览器和独立的Javascript运行时(如Node.js)中被广泛采用,所以在大多数情况下使用这个特性不需要额外的努力。完整的兼容性列表:https://kangax.github.io/compat-table/es6/

es5及以下版本的情况(传统浏览器)

有一个名为regexpu的转译器,它将ES6 Unicode正则表达式转换为等效的ES5。它可以作为构建过程的一部分。在网上试试吧。

尽管JavaScript操作Unicode字符串,但它并没有实现可识别Unicode的字符类,也没有POSIX字符类或Unicode块/子范围的概念。

Issues with Unicode in JavaScript regular expressions Check your expectations here: Javascript RegExp Unicode Character Class tester (Edit: the original page is down, the Internet Archive still has a copy.) Flagrant Badassery has an article on JavaScript, Regex, and Unicode that sheds some light on the matter. Also read Regex and Unicode here on SO. Probably you have to build your own "punctuation character class". Check out the Regular Expression: Match Unicode Block Range builder (archived copy), which lets you build a JavaScript regular expression that matches characters that fall in any number of specified Unicode blocks. I just did it for the "General Punctuation" and "Supplemental Punctuation" sub-ranges, and the result is as simple and straight-forward as I would have expected it: [\u2000-\u206F\u2E00-\u2E7F] There also is XRegExp, a project that brings Unicode support to JavaScript by offering an alternative regex engine with extended capabilities. And of course, required reading: mathiasbynens.be - JavaScript has a Unicode problem:

这样就可以了:

/[A-Za-z\u00C0-\u00FF ]+/.exec('hipopótamo maçã pólen ñ poção água língüa')

它显式地选择一个unicode字符范围。 它将适用于拉丁字符,但其他奇怪的字符可能超出这个范围。

在JavaScript中,\w和\d是ASCII,而\s是Unicode。别问我为什么。JavaScript支持带有Unicode类别的\p,您可以使用它来模拟支持Unicode的\w和\d。

\d使用\p{N}(数字)

[\p{L}\p{N}\p{Pc}\p{M}](字母,数字,下划线,标记)

更新:不幸的是,我错了。JavaScript也不正式支持\p,尽管一些实现可能仍然支持它。JavaScript正则表达式中对Unicode的唯一支持是使用\uFFFF匹配特定的代码点。你可以在字符类的范围内使用它们。

你还可以使用:

function myFunction() {
  var str = "xq234"; 
  var allowChars = "^[a-zA-ZÀ-ÿ]+$";
  var res = str.match(allowChars);
  if(!str.match(allowChars)){
    res="true";
  }
  else {
    res="false";
  }
  document.getElementById("demo").innerHTML = res;

[^\u0000-\u007F]+用于不包括ASCII字符的任何字符。

例如:

有趣的功能(s) 归来- [^ \ u0000 \ u007F]。测试(s); 的 控制台日志(isNonLatinCharacters(“身分");/ /日本 控制台日志(isNonLatinCharacters(“测试");/ /中国 控制台日志(isNonLatinCharacters(حمید");/ /波斯语 控制台日志(isNonLatinCharacters(“테스트");/ /韩国 控制台日志(isNonLatinCharacters(परीक्षण");/ /印地语 控制台日志(isNonLatinCharacters(“מִבְחָן");/ /希伯来语

这里有一些完美的参考:

Unicode范围RegExp生成器

Unicode正则表达式

Unicode 10.0字符代码图表

匹配Unicode块范围