我需要找到放在一个目录中的所有文件的编码。有没有办法找到所使用的编码?
file命令不能做到这一点。
我感兴趣的编码是ISO 8859-1。如果是其他编码,我想将文件移动到另一个目录。
我需要找到放在一个目录中的所有文件的编码。有没有办法找到所使用的编码?
file命令不能做到这一点。
我感兴趣的编码是ISO 8859-1。如果是其他编码,我想将文件移动到另一个目录。
当前回答
uchardet -从Mozilla移植的编码检测器库。
用法:
~> uchardet file.java
UTF-8
各种Linux发行版(Debian、Ubuntu、openSUSE、Pacman等)都提供二进制文件。
其他回答
使用这个命令:
for f in `find .`; do echo `file -i "$f"`; done
您可以列出一个目录和子目录中的所有文件以及相应的编码。
如果文件名称中有空格,请使用:
IFS=$'\n'
for f in `find .`; do echo `file -i "$f"`; done
记住,它会将当前Bash会话解释器更改为“空格”。
您可以使用file命令提取单个文件的编码。我有一个sample.html文件:
$ file sample.html
HTML: HTML文档,UTF-8 Unicode文本,有很长的行
$ file -b sample.html
HTML文档,UTF-8 Unicode文本,有很长的行
$ file -bi sample.html
短信/ html;charset = utf-8
$ file -bi sample.html | awk -F'=' '{print $2 }'
utf - 8
在Perl中,使用Encode::Detect。
如果谈论的是XML文件(ISO-8859-1),其中的XML声明指定了编码:<??> . xml version="1.0" encoding="ISO-8859-1" 因此,您可以使用正则表达式(例如,使用Perl)来检查每个文件是否有这样的规范。
更多信息可以在这里找到:如何确定文本文件编码。
听起来你在找恩卡。它可以猜测甚至在编码之间进行转换。看看手册页就知道了。
否则,使用file -i (Linux)或file -i (OS X)。这将输出文件的mime类型信息,其中还将包括字符集编码。我也找到了它的手册页:)