如何通过Linux上的脚本找到文件的编码?

我需要找到放在一个目录中的所有文件的编码。有没有办法找到所使用的编码?

file命令不能做到这一点。

我感兴趣的编码是ISO 8859-1。如果是其他编码，我想将文件移动到另一个目录。

当前回答

真的很难确定它是否是ISO 8859-1。如果你有一个只有7位字符的文本，也可能是ISO 8859-1，但你不知道。如果你有8位字符，那么上区域字符也存在于顺序编码中。因此，你必须使用字典来更好地猜测它是哪个单词，并从中确定它必须是哪个字母。最后，如果您检测到它可能是UTF-8，那么您可以确定它不是ISO 8859-1。

编码是最难做的事情之一，因为你永远不知道是否没有任何东西告诉你。

2009-04-30 07:13:47

其他回答

我正在使用以下脚本

找到所有匹配FILTER和SRC_ENCODING的文件创建它们的备份将它们转换为DST_ENCODING (可选)删除备份

#!/bin/bash -xe

SRC_ENCODING="iso-8859-1"
DST_ENCODING="utf-8"
FILTER="*.java"

echo "Find all files that match the encoding $SRC_ENCODING and filter $FILTER"
FOUND_FILES=$(find . -iname "$FILTER" -exec file -i {} \; | grep "$SRC_ENCODING" | grep -Eo '^.*\.java')

for FILE in $FOUND_FILES ; do
    ORIGINAL_FILE="$FILE.$SRC_ENCODING.bkp"
    echo "Backup original file to $ORIGINAL_FILE"
    mv "$FILE" "$ORIGINAL_FILE"

    echo "converting $FILE from $SRC_ENCODING to $DST_ENCODING"
    iconv -f "$SRC_ENCODING" -t "$DST_ENCODING" "$ORIGINAL_FILE" -o "$FILE"
done

echo "Deleting backups"
find . -iname "*.$SRC_ENCODING.bkp" -exec rm {} \;

2018-09-05 16:14:37

在Cygwin中，这看起来很适合我:

find -type f -name "<FILENAME_GLOB>" | while read <VAR>; do (file -i "$<VAR>"); done

例子:

find -type f -name "*.txt" | while read file; do (file -i "$file"); done

您可以将其输送到AWK，并创建一个iconv命令，将所有内容从iconv支持的任何源编码转换为UTF-8。

例子:

find -type f -name "*.txt" | while read file; do (file -i "$file"); done | awk -F[:=] '{print "iconv -f "$3" -t utf8 \""$1"\" > \""$1"_utf8\""}' | bash

2017-05-27 17:56:56

使用这个命令:

for f in `find .`; do echo `file -i "$f"`; done

您可以列出一个目录和子目录中的所有文件以及相应的编码。

如果文件名称中有空格，请使用:

IFS=$'\n'
for f in `find .`; do echo `file -i "$f"`; done

记住，它会将当前Bash会话解释器更改为“空格”。

2019-08-28 22:02:25

file -bi <file name>

如果你喜欢对一堆文件这样做

for f in `find | egrep -v Eliminate`; do echo "$f" ' -- ' `file -bi "$f"` ; done

2012-07-27 05:39:06

我知道您对更一般的答案感兴趣，但是ASCII中的优点通常也适用于其他编码。下面是一个Python单行程序，用于确定标准输入是否是ASCII。(我很确定这在Python 2中可以工作，但我只在Python 3上测试过。)

python -c 'from sys import exit,stdin;exit()if 128>max(c for l in open(stdin.fileno(),"b") for c in l) else exit("Not ASCII")' < myfile.txt

2012-05-30 18:18:04

如何通过Linux上的脚本找到文件的编码?

推荐文章

最新文章

标签