如何从JavaScript中使用正则表达式的字符串中剥离所有标点符号?

如果我有一个字符串，其中有任何类型的非字母数字字符:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"

我如何在JavaScript中得到一个没有标点符号的版本:

"This is an example of a string with punctuation"

当前回答

如果你的目标是一个现代浏览器(不是IE)，你可以使用unicode字符类。当您还需要支持诸如德语Umlaute (äöü)或其他字符时，这尤其有用。

这是我最后得到的。它替换所有不是字母、撇号或空格的内容，并用一个空格删除行中的多个空格。

const textStripped = text
  .replace(/[’]/g, "'") // replace ’ with '
  .replace(/[^\p{Letter}\p{Mark}\s']/gu, "") // remove everything that is not a letter, mark, space or '
  .replace(/\s+/g, " ") // remove multiple spaces

.replace(/[’]/g, "'")

First将'(印刷撇号)替换为'(打字机撇号)。因为两者都可以用在像"don 't "这样的词中

.replace(/[^\p{Letter}\p{Mark}\s']/gu, "")

\p{Letter}代表unicode中被归类为字母的任何字符。

\p{Mark}类别需要包括进一步的封面字母标记组合。例如，德语ä可以编码为单个字符，也可以编码为“a”和“Mark”的组合。当从pdf中复制德语文本时，这种情况经常发生。

来源: https://dev.to/tillsanders/let-s-stop-using-a-za-z-4a0m

2022-11-29 10:11:05

其他回答

下面是US-ASCII的标准标点符号:!"#$%&'()*+，-./:;<=>?@[\]^_`{|}~

对于Unicode标点符号(如大引号、em-dash等)，可以很容易地匹配特定的块范围。一般标点符号块是\u2000-\u206F，补充标点符号块是\u2E00-\u2E7F。

放在一起，并正确转义，您将得到以下RegExp:

/[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/

这应该可以匹配您遇到的任何标点符号。那么，来回答最初的问题:

var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/g;
var spaceRE = /\s+/g;
var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
str.replace(punctRE, '').replace(spaceRE, ' ');

>> "This is an example of a string with punctuation"

US-ASCII来源:http://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix

Unicode来源:http://kourge.net/projects/regexp-unicode-block

2014-08-29 19:30:25

对于en-US(美式英语)字符串，这应该足够了:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' )

注意，如果你支持UTF-8和像chinese/russian这样的字符，这也会替换它们，所以你真的必须指定你想要什么。

2010-12-01 20:04:10

在支持Unicode的语言中，Unicode Punctuation字符属性是\p{p}——为了便于阅读，通常可以缩写为\pP，有时也可以扩展为\p{Punctuation}。

您正在使用Perl兼容正则表达式库吗?

2010-12-01 20:22:10

/[^A-Za-z0-9\s]/g应该匹配所有的标点符号，但要保留空格。因此，如果需要的话，可以使用.replace(/\s{2，}/g， " ")替换额外的空格。您可以在http://rubular.com/中测试正则表达式

.replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ")

更新:只有当输入是ANSI英语时才会工作。

2015-10-29 08:06:15

str = str.replace(/[^\w\s\']|_/g, "")
         .replace(/\s+/g, " ");

删除除字母数字字符和空白之外的所有内容，然后将多个相邻空白折叠为单个空格。

详细解释:

\w是任意数字、字母或下划线。 \s是任何空白。 [^\w\s\']是指任何不是数字、字母、空格、下划线或单引号的字符。 [^\w\s\']|_与#3相同，只是加了下划线。

2010-12-01 20:03:35

如何从JavaScript中使用正则表达式的字符串中剥离所有标点符号?

推荐文章

最新文章

标签