(grep)正则表达式匹配非ascii字符?

在Linux上，我有一个有很多文件的目录。其中一些具有非ascii字符，但它们都是有效的UTF-8。有一个程序有一个错误，阻止它处理非ascii文件名，我必须找出有多少受到影响。我打算用find来做这个，然后用grep来打印非ascii字符，然后用wc -l来查找数字。不一定是grep;我可以使用任何标准的Unix正则表达式，如Perl、sed、AWK等。

然而，是否存在“非ASCII字符的任何字符”的正则表达式?

当前回答

要验证文本框只接受Ascii码，请使用此模式

[\x00-\x7F]+

2018-05-30 19:28:33

其他回答

[^\x00-\x7F]和[^[:ascii:]]缺少一些控制字节，因此字符串有时是更好的选择。比如猫测试。bt | perl -pe 's/[^[:ascii:]]+/\n/g'将对您的终端做一些奇怪的事情，其中作为字符串测试。Torrent会正常运行。

2016-03-03 03:53:46

这被证明是非常灵活和可扩展的。 $field =~ s/[^\x00-\x7F]//g;#这样所有非ASCII或特定的项目都可以被清除。无论是在选择还是对最终将成为哈希键的项进行预处理方面都非常好。

2015-10-19 20:25:07

这将匹配一个非ascii字符:

[^\x00-\x7F]

这是一个有效的PCRE (perl兼容正则表达式)。

你也可以使用POSIX的简写:

[[:ascii:]] -匹配单个ascii字符 [^[:ascii:]] -匹配单个非ascii字符

[^[:print:]]可能就足够了

2010-01-23 18:16:50

你也可以检查这个页面:Unicode正则表达式，因为它包含一些有用的Unicode字符类，比如:

\p{Control}: an ASCII 0x00..0x1F or Latin-1 0x80..0x9F control character.

2010-01-23 18:58:25

我使用[^\t\r\n\x20-\x7E]+，这似乎工作得很好。

2019-01-21 17:19:49

(grep)正则表达式匹配非ascii字符?

推荐文章

最新文章

标签