如何通过Linux上的脚本找到文件的编码?

我需要找到放在一个目录中的所有文件的编码。有没有办法找到所使用的编码?

file命令不能做到这一点。

我感兴趣的编码是ISO 8859-1。如果是其他编码，我想将文件移动到另一个目录。

当前回答

您可以使用file命令提取单个文件的编码。我有一个sample.html文件:

$ file sample.html

HTML: HTML文档，UTF-8 Unicode文本，有很长的行

$ file -b sample.html

HTML文档，UTF-8 Unicode文本，有很长的行

$ file -bi sample.html

短信/ html;charset = utf-8

$ file -bi sample.html  | awk -F'=' '{print $2 }'

utf - 8

2018-04-05 17:08:21

其他回答

听起来你在找恩卡。它可以猜测甚至在编码之间进行转换。看看手册页就知道了。

否则，使用file -i (Linux)或file -i (OS X)。这将输出文件的mime类型信息，其中还将包括字符集编码。我也找到了它的手册页:)

2009-04-30 05:41:58

这不是一件万无一失的事情。一种可能是检查文件中的每个字符，以确保它不包含0x00 - 0x1f或0x7f -0x9f范围内的任何字符，但正如我所说，这可能适用于任何数量的文件，包括至少一个ISO 8859的其他变体。

另一种可能是在文件中以所有支持的语言查找特定的单词，看看是否能找到它们。

因此，例如，在ISO 8859-1支持的所有语言中，找到与英语“and”、“but”、“to”、“of”等等价的单词，并查看它们是否在文件中大量出现。

我说的不是直译，比如:

English   French
-------   ------
of        de, du
and       et
the       le, la, les

尽管这是可能的。我说的是目标语言中的常用词(据我所知，冰岛语中没有“和”这个词——你可能得用他们的词来表示“鱼”[抱歉，这有点老套]。我没有任何冒犯的意思，只是说明一个观点)。

2009-04-30 05:45:24

我在一个需要跨平台支持的项目中工作，遇到了很多与文件编码相关的问题。

我做了这个脚本来转换所有的utf-8:

#!/bin/bash
## Retrieve the encoding of files and convert them
for f  `find "$1" -regextype posix-egrep -regex ".*\.(cpp|h)$"`; do
  echo "file: $f"
  ## Reads the entire file and get the enconding
  bytes_to_scan=$(wc -c < $f)
  encoding=`file -b --mime-encoding -P bytes=$bytes_to_scan $f`
  case $encoding in
    iso-8859-1 | euc-kr)
    iconv -f euc-kr -t utf-8 $f > $f.utf8
    mv $f.utf8 $f
    ;;
  esac
done

我使用了一个黑客来读取整个文件，并使用文件-b——mime-encoding -P bytes=$bytes_to_scan $f估计文件编码

2021-11-03 08:34:05

使用这个命令:

for f in `find .`; do echo `file -i "$f"`; done

您可以列出一个目录和子目录中的所有文件以及相应的编码。

如果文件名称中有空格，请使用:

IFS=$'\n'
for f in `find .`; do echo `file -i "$f"`; done

记住，它会将当前Bash会话解释器更改为“空格”。

2019-08-28 22:02:25

我知道您对更一般的答案感兴趣，但是ASCII中的优点通常也适用于其他编码。下面是一个Python单行程序，用于确定标准输入是否是ASCII。(我很确定这在Python 2中可以工作，但我只在Python 3上测试过。)

python -c 'from sys import exit,stdin;exit()if 128>max(c for l in open(stdin.fileno(),"b") for c in l) else exit("Not ASCII")' < myfile.txt

2012-05-30 18:18:04

如何通过Linux上的脚本找到文件的编码?

推荐文章

最新文章

标签