如何通过Linux上的脚本找到文件的编码?

我需要找到放在一个目录中的所有文件的编码。有没有办法找到所使用的编码?

file命令不能做到这一点。

我感兴趣的编码是ISO 8859-1。如果是其他编码，我想将文件移动到另一个目录。

当前回答

我知道您对更一般的答案感兴趣，但是ASCII中的优点通常也适用于其他编码。下面是一个Python单行程序，用于确定标准输入是否是ASCII。(我很确定这在Python 2中可以工作，但我只在Python 3上测试过。)

python -c 'from sys import exit,stdin;exit()if 128>max(c for l in open(stdin.fileno(),"b") for c in l) else exit("Not ASCII")' < myfile.txt

2012-05-30 18:18:04

其他回答

将ISO 8859-1编码转换为ASCII:

iconv -f ISO_8859-1 -t ASCII filename.txt

2019-02-18 12:29:54

在Python中，你可以使用chardet模块。

2011-07-18 14:55:14

如果谈论的是XML文件(ISO-8859-1)，其中的XML声明指定了编码:<??> . xml version="1.0" encoding="ISO-8859-1" 因此，您可以使用正则表达式(例如，使用Perl)来检查每个文件是否有这样的规范。

更多信息可以在这里找到:如何确定文本文件编码。

2012-01-27 14:31:38

在PHP中，你可以像这样检查它:

显式指定编码列表:

php -r "echo 'probably : ' . mb_detect_encoding(file_get_contents('myfile.txt'), 'UTF-8, ASCII, JIS, EUC-JP, SJIS, iso-8859-1') . PHP_EOL;"

更准确的"mb_list_encodings":

php -r "echo 'probably : ' . mb_detect_encoding(file_get_contents('myfile.txt'), mb_list_encodings()) . PHP_EOL;"

在第一个示例中，您可以看到我使用了一个可能匹配的编码列表(检测列表顺序)。为了得到更准确的结果，你可以使用所有可能的编码:mb_list_encodings()

注意mb_*函数需要php-mbstring:

apt-get install php-mbstring

2019-07-12 16:08:51

真的很难确定它是否是ISO 8859-1。如果你有一个只有7位字符的文本，也可能是ISO 8859-1，但你不知道。如果你有8位字符，那么上区域字符也存在于顺序编码中。因此，你必须使用字典来更好地猜测它是哪个单词，并从中确定它必须是哪个字母。最后，如果您检测到它可能是UTF-8，那么您可以确定它不是ISO 8859-1。

编码是最难做的事情之一，因为你永远不知道是否没有任何东西告诉你。

2009-04-30 07:13:47

如何通过Linux上的脚本找到文件的编码?

推荐文章

最新文章

标签