如何对所有非ascii字符进行grep ?

我有几个非常大的XML文件，我试图找到包含非ascii字符的行。我试过以下几种方法:

grep -e "[\x{00FF}-\x{FFFF}]" file.xml

但是这将返回文件中的每一行，而不管该行是否包含指定范围内的字符。

是我的语法错误还是我做错了什么?我也试过:

egrep "[\x{00FF}-\x{FFFF}]" file.xml

(在模式周围使用单引号和双引号)。

当前回答

在perl中

perl -ane '{ if(m/[[:^ascii:]]/) { print  } }' fileName > newFile

2011-10-18 09:11:28

其他回答

以下是我的工作:

grep -P "[\x80-\xFF]" file.xml

非ascii字符从0x80开始，在查看字节时转到0xFF。Grep(和家族)不做Unicode处理，将多字节字符合并为一个实体，以便进行正则表达式匹配。我的grep中的-P选项允许在字符类中使用\xdd转义来实现您想要的效果。

2010-06-08 21:59:22

在perl中

perl -ane '{ if(m/[[:^ascii:]]/) { print  } }' fileName > newFile

2011-10-18 09:11:28

不像上面大多数解决方案那样对非ASCII字符的字节范围进行假设，在我看来，明确ASCII字符的实际字节范围会稍微好一些。

所以第一个解决方案是:

grep --color='auto' -P -n '[^\x00-\x7F]' file.xml

(基本上greps十六进制ASCII范围以外的任何字符:从\x00到\x7F)

在Mountain Lion上，这将无法工作(由于BSD grep中缺乏PCRE支持)，但通过Homebrew安装PCRE，以下将同样工作:

pcregrep --color='auto' -n '[^\x00-\x7F]' file.xml

大家能想到什么优点或缺点吗?

2012-12-04 12:25:41

您可以使用以下命令:

grep --color='auto' -P -n "[\x80-\xFF]" file.xml

这将为您提供行号，并将用红色突出显示非ascii字符。

在某些系统中，根据您的设置，上述方法将不起作用，因此您可以通过逆函数进行grep

grep --color='auto' -P -n "[^\x00-\x7F]" file.xml

还要注意，重要的位是-P标志，它相当于——Perl -regexp:因此它将把您的模式解释为Perl正则表达式。它还说

这是高度实验性的，grep -P可能会警告未实现特性。

2012-02-22 13:16:27

查找所有非ascii字符会给人留下这样的印象:要么查找unicode字符串，要么打算单独剥离这些字符。

对于前者，可以尝试其中一个(变量文件用于自动化):

 file=file.txt ; LC_ALL=C grep -Piao '[\x80-\xFF\x20]{7,}' $file | iconv -f $(uchardet $file) -t utf-8

 file=file.txt ; pcregrep -iao '[\x80-\xFF\x20]{7,}' $file | iconv -f $(uchardet $file) -t utf-8

 file=file.txt ; pcregrep -iao '[^\x00-\x19\x21-\x7F]{7,}' $file | iconv -f $(uchardet $file) -t utf-8

如前面的答案所述，如果没有LC_ALL=C, Vanilla grep将无法正常工作。

ASCII范围是x00-x7F，空格是x20，因为字符串有空格，所以负范围省略了它。

非ascii范围是x80-xFF，因为字符串有空格，所以正范围加上它。

String假定在范围内至少有7个连续字符。{7}。

对于shell可读输出，uchardet $file返回文件编码的猜测值，该值被传递给iconv进行自动插值。

2019-02-17 17:01:50

如何对所有非ascii字符进行grep ?

推荐文章

最新文章

标签