我需要找到放在一个目录中的所有文件的编码。有没有办法找到所使用的编码?
file命令不能做到这一点。
我感兴趣的编码是ISO 8859-1。如果是其他编码,我想将文件移动到另一个目录。
我需要找到放在一个目录中的所有文件的编码。有没有办法找到所使用的编码?
file命令不能做到这一点。
我感兴趣的编码是ISO 8859-1。如果是其他编码,我想将文件移动到另一个目录。
当前回答
在PHP中,你可以像这样检查它:
显式指定编码列表:
php -r "echo 'probably : ' . mb_detect_encoding(file_get_contents('myfile.txt'), 'UTF-8, ASCII, JIS, EUC-JP, SJIS, iso-8859-1') . PHP_EOL;"
更准确的"mb_list_encodings":
php -r "echo 'probably : ' . mb_detect_encoding(file_get_contents('myfile.txt'), mb_list_encodings()) . PHP_EOL;"
在第一个示例中,您可以看到我使用了一个可能匹配的编码列表(检测列表顺序)。 为了得到更准确的结果,你可以使用所有可能的编码:mb_list_encodings()
注意mb_*函数需要php-mbstring:
apt-get install php-mbstring
其他回答
file -bi <file name>
如果你喜欢对一堆文件这样做
for f in `find | egrep -v Eliminate`; do echo "$f" ' -- ' `file -bi "$f"` ; done
将ISO 8859-1编码转换为ASCII:
iconv -f ISO_8859-1 -t ASCII filename.txt
这不是一件万无一失的事情。一种可能是检查文件中的每个字符,以确保它不包含0x00 - 0x1f或0x7f -0x9f范围内的任何字符,但正如我所说,这可能适用于任何数量的文件,包括至少一个ISO 8859的其他变体。
另一种可能是在文件中以所有支持的语言查找特定的单词,看看是否能找到它们。
因此,例如,在ISO 8859-1支持的所有语言中,找到与英语“and”、“but”、“to”、“of”等等价的单词,并查看它们是否在文件中大量出现。
我说的不是直译,比如:
English French
------- ------
of de, du
and et
the le, la, les
尽管这是可能的。我说的是目标语言中的常用词(据我所知,冰岛语中没有“和”这个词——你可能得用他们的词来表示“鱼”[抱歉,这有点老套]。我没有任何冒犯的意思,只是说明一个观点)。
如果谈论的是XML文件(ISO-8859-1),其中的XML声明指定了编码:<??> . xml version="1.0" encoding="ISO-8859-1" 因此,您可以使用正则表达式(例如,使用Perl)来检查每个文件是否有这样的规范。
更多信息可以在这里找到:如何确定文本文件编码。
uchardet -从Mozilla移植的编码检测器库。
用法:
~> uchardet file.java
UTF-8
各种Linux发行版(Debian、Ubuntu、openSUSE、Pacman等)都提供二进制文件。