如何检测文本文件的编码/编码页?

在我们的应用程序中，我们从不同的来源接收文本文件(.txt， .csv等)。读取时，这些文件有时包含垃圾，因为这些文件是在不同的/未知的代码页中创建的。

是否有一种方法(自动)检测文本文件的代码页?

detectEncodingFromByteOrderMarks，在StreamReader构造函数上，适用于UTF8和其他unicode标记的文件，但我正在寻找一种方法来检测代码页，如ibm850, windows1252。

谢谢你的回答，这就是我所做的。

我们收到的文件来自最终用户，他们没有关于代码页的线索。接收者也是最终用户，到目前为止，这是他们对代码页的了解:代码页存在，并且令人讨厌。

解决方案:

在记事本中打开收到的文件，查看一段乱码的文本。如果有人叫François之类的，凭你的智商你就能猜出来。我已经创建了一个小应用程序，用户可以使用它打开文件，并输入用户知道它将出现在文件中的文本，当使用正确的代码页时。遍历所有代码页，并显示包含用户提供的文本的解决方案的代码页。如果多个代码页同时弹出，请用户指定更多文本。

当前回答

遇到了同样的问题，但还没有找到一个自动检测的好解决方案。现在我使用PsPad (www.pspad.com)为那;)工作正常

2008-09-18 08:25:40

其他回答

notepad++具有这个功能。它还支持对其进行更改。

2010-08-06 19:13:52

StreamReader类的构造函数接受一个“detect encoding”参数。

2008-09-18 08:04:28

在AkelPad中打开文件(或只是复制/粘贴乱码文本)，点击编辑->选择->重新编码…->检查“自动检测”。

2016-08-22 03:02:43

你不能检测到代码页，你需要被告知。您可以分析字节并猜测它，但这可能会给出一些奇怪(有时很有趣)的结果。我现在找不到它，但我相信记事本可以被骗用中文显示英文文本。

不管怎样，这是你需要读的: 每个软件开发人员绝对、肯定必须知道Unicode和字符集(没有借口!)

乔尔特别说:

The Single Most Important Fact About Encodings If you completely forget everything I just explained, please remember one extremely important fact. It does not make sense to have a string without knowing what encoding it uses. You can no longer stick your head in the sand and pretend that "plain" text is ASCII. There Ain't No Such Thing As Plain Text. If you have a string, in memory, in a file, or in an email message, you have to know what encoding it is in or you cannot interpret it or display it to users correctly.

2008-09-18 08:30:29

您无法检测到代码页

这显然是错误的。每个web浏览器都有某种通用字符集检测器来处理没有任何编码指示的页面。Firefox就有一个。您可以下载代码并查看它是如何执行的。请在这里查看一些文档。基本上，这是一种启发式，但效果非常好。

给定合理数量的文本，甚至可以检测语言。

这是我刚刚用谷歌发现的另一个:

2008-09-18 09:04:51

如何检测文本文件的编码/编码页?

推荐文章

最新文章

标签