我怎么能写一个正则表达式,只匹配字母?


当前回答

在python中,我发现了以下工作:

[^\W\d_]

这是因为我们正在创建一个新的字符类([]),它从类\W中排除(^)任何字符(所有不在[a- za - z0 -9_]中的字符),也排除任何数字(\d),也排除下划线(_)。

也就是说,我们已经取了字符类[a-zA-Z0-9_],并删除了0-9和_位。你可能会问,这样写[a-zA-Z]不是比[^\W\d_]更简单吗?如果只处理ASCII文本,您将是正确的,但当处理unicode文本时:

\ W 匹配任何非单词字符的字符。这是\w的反义词。>如果使用了ASCII标志,它就相当于[^a-zA-Z0-9_]。

^来自python re模块文档

也就是说,我们取unicode中所有被认为是单词字符的字符,删除unicode中所有被认为是数字字符的字符,并删除下划线。

例如,下面的代码片段

import re
regex = "[^\W\d_]"
test_string = "A;,./>>?()*)&^*&^%&^#Bsfa1 203974"
re.findall(regex, test_string)

返回

['A', 'B', 's', 'f', 'a']

其他回答

\p{L}匹配任何Unicode字母,如果您对拉丁字母以外的字母感兴趣

对于PHP,下面的代码就可以了

'/^[a-zA-Z]+$/'

你可以试试这个正则表达式:[^\W\d_]或[a-zA-Z]。

使用字符集:[a- za -z]匹配a-z中的一个小写字母和大写字母。[a- za -z]+匹配一个或多个字母,^[a- za -z]+$只匹配由一个或多个字母组成的字符串(^和$分别标记字符串的开始和结束)。

如果你想匹配除A-Z之外的其他字母,你可以将它们添加到字符集:[a-zA-ZäöüßÄÖÜ]。或者使用预定义的字符类,如Unicode字符属性类\p{L},它描述了作为字母的Unicode字符。

所以,我读了很多答案,大部分答案都没有考虑到例外情况,比如有重音的字母或变音(á, à, ä等)。

我在typescript中编写了一个函数,该函数应该几乎可以外推到任何可以使用RegExp的语言。这是我个人用TypeScript实现的用例。我所做的基本上是为我想添加的每种符号添加字母范围。在应用RegExp之前,我还将字符转换为大写,这为我节省了一些工作。

function isLetter(char: string): boolean {
  return char.toUpperCase().match('[A-ZÀ-ÚÄ-Ü]+') !== null;
}

如果您想添加具有另一种重音的另一个字母范围,只需将其添加到正则表达式。特殊符号也是如此。

我用TDD实现了这个功能,我可以确认这至少适用于以下情况:

    character | isLetter
    ${'A'}    | ${true}
    ${'e'}    | ${true}
    ${'Á'}    | ${true}
    ${'ü'}    | ${true}
    ${'ù'}    | ${true}
    ${'û'}    | ${true}
    ${'('}    | ${false}
    ${'^'}    | ${false}
    ${"'"}    | ${false}
    ${'`'}    | ${false}
    ${' '}    | ${false}