如何检测文本文件的编码/编码页?

在我们的应用程序中，我们从不同的来源接收文本文件(.txt， .csv等)。读取时，这些文件有时包含垃圾，因为这些文件是在不同的/未知的代码页中创建的。

是否有一种方法(自动)检测文本文件的代码页?

detectEncodingFromByteOrderMarks，在StreamReader构造函数上，适用于UTF8和其他unicode标记的文件，但我正在寻找一种方法来检测代码页，如ibm850, windows1252。

谢谢你的回答，这就是我所做的。

我们收到的文件来自最终用户，他们没有关于代码页的线索。接收者也是最终用户，到目前为止，这是他们对代码页的了解:代码页存在，并且令人讨厌。

解决方案:

在记事本中打开收到的文件，查看一段乱码的文本。如果有人叫François之类的，凭你的智商你就能猜出来。我已经创建了一个小应用程序，用户可以使用它打开文件，并输入用户知道它将出现在文件中的文本，当使用正确的代码页时。遍历所有代码页，并显示包含用户提供的文本的解决方案的代码页。如果多个代码页同时弹出，请用户指定更多文本。

当前回答

我知道现在提这个问题已经很晚了，而且这个解决方案不会吸引一些人(因为它以英语为中心的偏见和缺乏统计/实证测试)，但它对我来说非常有效，特别是在处理上传的CSV数据方面:

http://www.architectshack.com/TextFileEncodingDetector.ashx

优点:

内置BOM检测默认/回退编码可定制相当可靠(以我的经验)的西欧文件包含一些奇异的数据(如法国名称)与混合UTF-8和拉丁-1风格的文件-基本上大部分美国和西欧环境。

注意:我是编写这个类的人，所以显然要持保留态度!：）

2011-04-29 09:20:17

其他回答

感谢@Erik Aronesty提到uchardet。与此同时，linux也有一个工具:chardet。或者，在cygwin上，你可能想使用:chardetect。

参见:chardet手册页:https://www.commandlinux.com/man-page/man1/chardetect.1.html

这将启发式地检测(猜测)每个给定文件的字符编码，并报告每个文件检测到的字符编码的名称和置信级别。

2018-05-07 12:26:08

您无法检测到代码页

这显然是错误的。每个web浏览器都有某种通用字符集检测器来处理没有任何编码指示的页面。Firefox就有一个。您可以下载代码并查看它是如何执行的。请在这里查看一些文档。基本上，这是一种启发式，但效果非常好。

给定合理数量的文本，甚至可以检测语言。

这是我刚刚用谷歌发现的另一个:

2008-09-18 09:04:51

“uchardet”工具使用每个字符集的字符频率分布模型很好地做到了这一点。更大的文件和更“典型”的文件具有更强的可信度(显然)。

在ubuntu上，你只需要apt-get install uchardet。

在其他系统上，从这里获取源代码、用法和文档:https://github.com/BYVoid/uchardet

2013-12-03 14:20:41

我在Python中做过类似的事情。基本上，您需要来自各种编码的大量示例数据，这些数据由一个滑动的两字节窗口分解并存储在字典(散列)中，以提供编码列表值的字节对为键值。

给定这个字典(哈希)，你把你的输入文本:

如果它以任何BOM字符开头('\xfe\xff'用于UTF-16-BE， '\xff\xfe'用于UTF-16-LE， '\xef\xbb\xbf'用于UTF-8等)，我将其视为建议如果不是，那么取足够大的文本样本，取样本的所有字节对，并选择从字典中建议的最不常见的编码。

如果您还采样了不以任何BOM开头的UTF编码文本，那么第二步将涵盖从第一步中遗漏的文本。

到目前为止，它对我来说是有效的(示例数据和后续输入数据是各种语言的字幕)，错误率正在降低。

2008-09-18 09:03:38

通过输入cpanm Text::Unaccent::PurePerl，这会生成一个build.log文件，在一些应用程序中显示为中文，在其他应用程序中显示为英文。cpanm是初始文本，一个合理的尝试，如果你足够幸运，在语言中有空格，是通过统计测试来比较单词的分布频率

2022-02-12 15:06:08

如何检测文本文件的编码/编码页?

推荐文章

最新文章

标签