我有几个非常大的XML文件,我试图找到包含非ascii字符的行。我试过以下几种方法:
grep -e "[\x{00FF}-\x{FFFF}]" file.xml
但是这将返回文件中的每一行,而不管该行是否包含指定范围内的字符。
是我的语法错误还是我做错了什么?我也试过:
egrep "[\x{00FF}-\x{FFFF}]" file.xml
(在模式周围使用单引号和双引号)。
我有几个非常大的XML文件,我试图找到包含非ascii字符的行。我试过以下几种方法:
grep -e "[\x{00FF}-\x{FFFF}]" file.xml
但是这将返回文件中的每一行,而不管该行是否包含指定范围内的字符。
是我的语法错误还是我做错了什么?我也试过:
egrep "[\x{00FF}-\x{FFFF}]" file.xml
(在模式周围使用单引号和双引号)。
当前回答
以下是我的工作:
grep -P "[\x80-\xFF]" file.xml
非ascii字符从0x80开始,在查看字节时转到0xFF。Grep(和家族)不做Unicode处理,将多字节字符合并为一个实体,以便进行正则表达式匹配。我的grep中的-P选项允许在字符类中使用\xdd转义来实现您想要的效果。
其他回答
以下是我的工作:
grep -P "[\x80-\xFF]" file.xml
非ascii字符从0x80开始,在查看字节时转到0xFF。Grep(和家族)不做Unicode处理,将多字节字符合并为一个实体,以便进行正则表达式匹配。我的grep中的-P选项允许在字符类中使用\xdd转义来实现您想要的效果。
知道如何搜索一个unicode字符可能会很有趣。该命令可以提供帮助。你只需要知道UTF8的代码
grep -v $'\u200d'
不像上面大多数解决方案那样对非ASCII字符的字节范围进行假设,在我看来,明确ASCII字符的实际字节范围会稍微好一些。
所以第一个解决方案是:
grep --color='auto' -P -n '[^\x00-\x7F]' file.xml
(基本上greps十六进制ASCII范围以外的任何字符:从\x00到\x7F)
在Mountain Lion上,这将无法工作(由于BSD grep中缺乏PCRE支持),但通过Homebrew安装PCRE,以下将同样工作:
pcregrep --color='auto' -n '[^\x00-\x7F]' file.xml
大家能想到什么优点或缺点吗?
下面的代码工作:
find /tmp | perl -ne 'print if /[^[:ascii:]]/'
将/tmp替换为要搜索的目录名。
这是我发现的另一个变体,它与grep搜索[\x80-\xFF]的结果完全不同。也许它会有用的人找到额外的非ascii字符:
grep -颜色= '汽车' - p - n”[^ [ascii:]]”myfile.txt
注意:我的电脑的grep (Mac)没有-P选项,所以我brew install grep,并使用ggrep而不是grep开始上面的调用。