我有几个非常大的XML文件,我试图找到包含非ascii字符的行。我试过以下几种方法:
grep -e "[\x{00FF}-\x{FFFF}]" file.xml
但是这将返回文件中的每一行,而不管该行是否包含指定范围内的字符。
是我的语法错误还是我做错了什么?我也试过:
egrep "[\x{00FF}-\x{FFFF}]" file.xml
(在模式周围使用单引号和双引号)。
我有几个非常大的XML文件,我试图找到包含非ascii字符的行。我试过以下几种方法:
grep -e "[\x{00FF}-\x{FFFF}]" file.xml
但是这将返回文件中的每一行,而不管该行是否包含指定范围内的字符。
是我的语法错误还是我做错了什么?我也试过:
egrep "[\x{00FF}-\x{FFFF}]" file.xml
(在模式周围使用单引号和双引号)。
当前回答
知道如何搜索一个unicode字符可能会很有趣。该命令可以提供帮助。你只需要知道UTF8的代码
grep -v $'\u200d'
其他回答
在perl中
perl -ane '{ if(m/[[:^ascii:]]/) { print } }' fileName > newFile
知道如何搜索一个unicode字符可能会很有趣。该命令可以提供帮助。你只需要知道UTF8的代码
grep -v $'\u200d'
这个方法应该适用于任何posix兼容的awk和iconv版本。 我们还可以利用file和tr。
curl当然不是POSIX。
上面的解决方案在某些情况下可能更好,但它们似乎依赖于GNU/Linux实现或其他工具。
只是以某种方式获得一个示例文件:
$ curl他们http://gutenberg.org/files/84/84-0.txt
$ file 84-0.txt
84-0.txt: UTF-8 Unicode(带BOM)文本,带有CRLF行终止符
搜索UTF-8字符:
$ awk '/[\x80-\xFF]/ { print }' 84-0.txt
或非ascii
$ awk '/[^[:ascii:]]/ {print}' 84-0.txt
将UTF-8转换为ASCII,删除有问题的字符(包括BOM,无论如何不应该是UTF-8):
$ iconv -c -t ASCII 84-0.txt
检查:
$ file 84-ascii.txt
84-ascii.txt: ASCII文本,带有CRLF行结束符
调整它以删除DOS行结束符/ ^M(“CRLF行终止符”):
$ tr -d '\015' < 84-ascii.txt > 84-tweak .txt &&文件84-tweak .txt
84-tweak .txt: ASCII文本
此方法会丢弃它无法处理的任何“坏”字符,因此您可能需要对输出进行消毒/验证。YMMV
查找所有非ascii字符会给人留下这样的印象:要么查找unicode字符串,要么打算单独剥离这些字符。
对于前者,可以尝试其中一个(变量文件用于自动化):
file=file.txt ; LC_ALL=C grep -Piao '[\x80-\xFF\x20]{7,}' $file | iconv -f $(uchardet $file) -t utf-8
file=file.txt ; pcregrep -iao '[\x80-\xFF\x20]{7,}' $file | iconv -f $(uchardet $file) -t utf-8
file=file.txt ; pcregrep -iao '[^\x00-\x19\x21-\x7F]{7,}' $file | iconv -f $(uchardet $file) -t utf-8
如前面的答案所述,如果没有LC_ALL=C, Vanilla grep将无法正常工作。
ASCII范围是x00-x7F,空格是x20,因为字符串有空格,所以负范围省略了它。
非ascii范围是x80-xFF,因为字符串有空格,所以正范围加上它。
String假定在范围内至少有7个连续字符。{7}。
对于shell可读输出,uchardet $file返回文件编码的猜测值,该值被传递给iconv进行自动插值。
最简单的方法是定义一个非ascii字符…作为非ASCII字符的字符。
LC_ALL=C grep '[^ -~]' file.xml
如果需要,在^后面添加一个制表符。
设置LC_COLLATE=C可以避免在许多地区中出现关于字符范围含义的令人讨厌的意外。必须设置LC_CTYPE=C以匹配单字节字符-否则该命令将错过当前编码中的无效字节序列。设置LC_ALL=C可以完全避免语言环境相关的影响。