如何通过Linux上的脚本找到文件的编码?

我需要找到放在一个目录中的所有文件的编码。有没有办法找到所使用的编码?

file命令不能做到这一点。

我感兴趣的编码是ISO 8859-1。如果是其他编码，我想将文件移动到另一个目录。

当前回答

在Debian中你也可以使用:encguess:

$ encguess test.txt
test.txt  US-ASCII

由于它是一个perl脚本，它可以安装在大多数系统上，通过安装perl或脚本作为独立的，如果perl已经安装。

$ dpkg -S /usr/bin/encguess
perl: /usr/bin/encguess

2018-02-21 18:49:12

其他回答

在Python中，你可以使用chardet模块。

2011-07-18 14:55:14

我正在使用以下脚本

找到所有匹配FILTER和SRC_ENCODING的文件创建它们的备份将它们转换为DST_ENCODING (可选)删除备份

#!/bin/bash -xe

SRC_ENCODING="iso-8859-1"
DST_ENCODING="utf-8"
FILTER="*.java"

echo "Find all files that match the encoding $SRC_ENCODING and filter $FILTER"
FOUND_FILES=$(find . -iname "$FILTER" -exec file -i {} \; | grep "$SRC_ENCODING" | grep -Eo '^.*\.java')

for FILE in $FOUND_FILES ; do
    ORIGINAL_FILE="$FILE.$SRC_ENCODING.bkp"
    echo "Backup original file to $ORIGINAL_FILE"
    mv "$FILE" "$ORIGINAL_FILE"

    echo "converting $FILE from $SRC_ENCODING to $DST_ENCODING"
    iconv -f "$SRC_ENCODING" -t "$DST_ENCODING" "$ORIGINAL_FILE" -o "$FILE"
done

echo "Deleting backups"
find . -iname "*.$SRC_ENCODING.bkp" -exec rm {} \;

2018-09-05 16:14:37

这不是一件万无一失的事情。一种可能是检查文件中的每个字符，以确保它不包含0x00 - 0x1f或0x7f -0x9f范围内的任何字符，但正如我所说，这可能适用于任何数量的文件，包括至少一个ISO 8859的其他变体。

另一种可能是在文件中以所有支持的语言查找特定的单词，看看是否能找到它们。

因此，例如，在ISO 8859-1支持的所有语言中，找到与英语“and”、“but”、“to”、“of”等等价的单词，并查看它们是否在文件中大量出现。

我说的不是直译，比如:

English   French
-------   ------
of        de, du
and       et
the       le, la, les

尽管这是可能的。我说的是目标语言中的常用词(据我所知，冰岛语中没有“和”这个词——你可能得用他们的词来表示“鱼”[抱歉，这有点老套]。我没有任何冒犯的意思，只是说明一个观点)。

2009-04-30 05:45:24

在PHP中，你可以像这样检查它:

显式指定编码列表:

php -r "echo 'probably : ' . mb_detect_encoding(file_get_contents('myfile.txt'), 'UTF-8, ASCII, JIS, EUC-JP, SJIS, iso-8859-1') . PHP_EOL;"

更准确的"mb_list_encodings":

php -r "echo 'probably : ' . mb_detect_encoding(file_get_contents('myfile.txt'), mb_list_encodings()) . PHP_EOL;"

在第一个示例中，您可以看到我使用了一个可能匹配的编码列表(检测列表顺序)。为了得到更准确的结果，你可以使用所有可能的编码:mb_list_encodings()

注意mb_*函数需要php-mbstring:

apt-get install php-mbstring

2019-07-12 16:08:51

在Cygwin中，这看起来很适合我:

find -type f -name "<FILENAME_GLOB>" | while read <VAR>; do (file -i "$<VAR>"); done

例子:

find -type f -name "*.txt" | while read file; do (file -i "$file"); done

您可以将其输送到AWK，并创建一个iconv命令，将所有内容从iconv支持的任何源编码转换为UTF-8。

例子:

find -type f -name "*.txt" | while read file; do (file -i "$file"); done | awk -F[:=] '{print "iconv -f "$3" -t utf8 \""$1"\" > \""$1"_utf8\""}' | bash

2017-05-27 17:56:56

如何通过Linux上的脚本找到文件的编码?

推荐文章

最新文章

标签