我有几个非常大的XML文件,我试图找到包含非ascii字符的行。我试过以下几种方法:
grep -e "[\x{00FF}-\x{FFFF}]" file.xml
但是这将返回文件中的每一行,而不管该行是否包含指定范围内的字符。
是我的语法错误还是我做错了什么?我也试过:
egrep "[\x{00FF}-\x{FFFF}]" file.xml
(在模式周围使用单引号和双引号)。
我有几个非常大的XML文件,我试图找到包含非ascii字符的行。我试过以下几种方法:
grep -e "[\x{00FF}-\x{FFFF}]" file.xml
但是这将返回文件中的每一行,而不管该行是否包含指定范围内的字符。
是我的语法错误还是我做错了什么?我也试过:
egrep "[\x{00FF}-\x{FFFF}]" file.xml
(在模式周围使用单引号和双引号)。
当前回答
以下是我的工作:
grep -P "[\x80-\xFF]" file.xml
非ascii字符从0x80开始,在查看字节时转到0xFF。Grep(和家族)不做Unicode处理,将多字节字符合并为一个实体,以便进行正则表达式匹配。我的grep中的-P选项允许在字符类中使用\xdd转义来实现您想要的效果。
其他回答
知道如何搜索一个unicode字符可能会很有趣。该命令可以提供帮助。你只需要知道UTF8的代码
grep -v $'\u200d'
下面的代码工作:
find /tmp | perl -ne 'print if /[^[:ascii:]]/'
将/tmp替换为要搜索的目录名。
您可以使用以下命令:
grep --color='auto' -P -n "[\x80-\xFF]" file.xml
这将为您提供行号,并将用红色突出显示非ascii字符。
在某些系统中,根据您的设置,上述方法将不起作用,因此您可以通过逆函数进行grep
grep --color='auto' -P -n "[^\x00-\x7F]" file.xml
还要注意,重要的位是-P标志,它相当于——Perl -regexp:因此它将把您的模式解释为Perl正则表达式。它还说
这是高度实验性的,grep -P可能会警告未实现 特性。
这是我发现的另一个变体,它与grep搜索[\x80-\xFF]的结果完全不同。也许它会有用的人找到额外的非ascii字符:
grep -颜色= '汽车' - p - n”[^ [ascii:]]”myfile.txt
注意:我的电脑的grep (Mac)没有-P选项,所以我brew install grep,并使用ggrep而不是grep开始上面的调用。
这个方法应该适用于任何posix兼容的awk和iconv版本。 我们还可以利用file和tr。
curl当然不是POSIX。
上面的解决方案在某些情况下可能更好,但它们似乎依赖于GNU/Linux实现或其他工具。
只是以某种方式获得一个示例文件:
$ curl他们http://gutenberg.org/files/84/84-0.txt
$ file 84-0.txt
84-0.txt: UTF-8 Unicode(带BOM)文本,带有CRLF行终止符
搜索UTF-8字符:
$ awk '/[\x80-\xFF]/ { print }' 84-0.txt
或非ascii
$ awk '/[^[:ascii:]]/ {print}' 84-0.txt
将UTF-8转换为ASCII,删除有问题的字符(包括BOM,无论如何不应该是UTF-8):
$ iconv -c -t ASCII 84-0.txt
检查:
$ file 84-ascii.txt
84-ascii.txt: ASCII文本,带有CRLF行结束符
调整它以删除DOS行结束符/ ^M(“CRLF行终止符”):
$ tr -d '\015' < 84-ascii.txt > 84-tweak .txt &&文件84-tweak .txt
84-tweak .txt: ASCII文本
此方法会丢弃它无法处理的任何“坏”字符,因此您可能需要对输出进行消毒/验证。YMMV