UTF-8和UTF-8与BOM有什么区别?

UTF-8和UTF-8与BOM有什么不同?哪个更好?

当前回答

我从另一个角度看这个问题。我认为UTF-8与BOM更好，因为它提供了更多关于文件的信息。我只在遇到问题时才使用没有BOM的UTF-8。

我在我的页面上使用多种语言(甚至西里尔字母)很长一段时间，当文件保存时没有BOM，我重新打开它们用编辑器编辑(cherouvim也指出)，一些字符被损坏了。

请注意，当您尝试以UTF-8编码保存新创建的文件时，Windows的经典记事本会自动保存带有BOM的文件。

我个人保存带有BOM的服务器端脚本文件(.asp， .ini， .aspx)和没有BOM的.html文件。

2012-05-11 08:34:50

其他回答

问:UTF-8和没有BOM的UTF-8有什么不同?哪个更好?

以下是一些摘自维基百科关于字节顺序标记(BOM)的文章，我相信这些文章为这个问题提供了一个可靠的答案。

关于BOM和UTF-8的含义:

Unicode标准允许使用UTF-8格式的BOM，但不要求或推荐使用。字节顺序在UTF-8中没有意义，因此在UTF-8中唯一使用的是在文本流开始时发出信号以UTF-8编码。

不使用BOM的参数:

不使用BOM的主要动机是向后兼容性使用不支持unicode的软件…另一个不这样做的原因使用BOM是为了鼓励UTF-8作为“默认”编码。

使用BOM的参数:

The argument for using a BOM is that without it, heuristic analysis is required to determine what character encoding a file is using. Historically such analysis, to distinguish various 8-bit encodings, is complicated, error-prone, and sometimes slow. A number of libraries are available to ease the task, such as Mozilla Universal Charset Detector and International Components for Unicode. Programmers mistakenly assume that detection of UTF-8 is equally difficult (it is not because of the vast majority of byte sequences are invalid UTF-8, while the encodings these libraries are trying to distinguish allow all possible byte sequences). Therefore not all Unicode-aware programs perform such an analysis and instead rely on the BOM. In particular, Microsoft compilers and interpreters, and many pieces of software on Microsoft Windows such as Notepad will not correctly read UTF-8 text unless it has only ASCII characters or it starts with the BOM, and will add a BOM to the start when saving text as UTF-8. Google Docs will add a BOM when a Microsoft Word document is downloaded as a plain text file.

有或没有BOM，哪个更好:

IETF建议，如果一个协议(a)总是使用UTF-8，或者(b)有其他方式表明使用的是什么编码，那么它“应该禁止使用U+FEFF作为签名。”

我的结论是:

仅在与软件应用程序的兼容性是绝对必要的情况下使用BOM。

还要注意，虽然引用的维基百科文章指出，许多Microsoft应用程序依赖BOM来正确检测UTF-8，但并非所有Microsoft应用程序都是如此。例如，正如@barlop所指出的，当使用带有UTF-8†的Windows命令提示符时，此类类型和更多的命令不期望出现BOM。如果存在BOM，它可能会像其他应用程序一样出现问题。

†chcp命令通过代码页65001提供对UTF-8(没有BOM)的支持。

2014-10-02 20:24:24

如果你在HTML文件中使用UTF-8，如果你在同一页面上使用塞尔维亚西里尔语、塞尔维亚拉丁语、德语、匈牙利语或一些外来语言，那么使用UTF和BOM更好。

这是我(从事计算机和IT行业30年)的观点。

2013-03-15 10:01:53

UTF-8与BOM更好地识别。我得出这个结论很不容易。我正在从事一个项目，其中一个结果是一个CSV文件，包括Unicode字符。

如果CSV文件保存时没有BOM, Excel会认为它是ANSI并显示胡言乱语。一旦你在前面添加了“EF BB BF”(例如，通过使用UTF-8记事本重新保存它;或notepad++与UTF-8与BOM)， Excel打开它很好。

RFC 3629: "UTF-8，一种ISO 10646的转换格式"，2003年11月建议将BOM字符前置到Unicode文本文件中在https://www.rfc-editor.org/rfc/rfc3629(这最后的信息可以在:http://www.herongyang.com/Unicode/Notepad-Byte-Order-Mark-BOM-FEFF-EFBBBF.html)

2012-06-28 17:34:28

UTF-8 BOM是文本流开头的字节序列(0xEF, 0xBB, 0xBF)，它允许读者更可靠地猜测文件是否以UTF-8编码。

通常，BOM用于表示编码的字节顺序，但由于字节顺序与UTF-8无关，因此BOM是不必要的。

根据Unicode标准，不建议使用UTF-8文件的BOM:

2.6编码方案．.．对于UTF-8，既不要求也不建议使用BOM，但在将UTF-8数据从使用BOM的其他编码形式转换或将BOM用作UTF-8签名的上下文中可能会遇到这种情况。有关更多信息，请参阅第16.8节特殊项中的“字节顺序标记”小节。

2010-02-08 18:33:26

UTF-8和没有BOM的UTF-8有什么不同?

简单回答:在UTF-8中，BOM编码为文件开头的字节EF BB BF。

长一点的回答:

最初，预计Unicode将以UTF-16/UCS-2编码。BOM是为这种编码形式设计的。当您有2字节的代码单元时，有必要指出这两个字节的顺序，这样做的一个常见惯例是在数据的开头包含字符U+FEFF作为“字节顺序标记”。字符U+FFFE是永久未分配的，因此可以使用它来检测错误的字节顺序。

不管平台字节顺序如何，UTF-8都具有相同的字节顺序，因此不需要字节顺序标记。然而，它可能出现在从UTF-16转换为UTF-8的数据中(作为字节序列EF BB FF)，或者作为表示数据为UTF-8的“签名”。

哪个更好?

没有。正如Martin Cote回答的那样，Unicode标准并不推荐这样做。它会导致非bom识别软件出现问题。

检测文件是否为UTF-8的更好方法是执行有效性检查。UTF-8对哪些字节序列是有效的有严格的规则，因此假阳性的概率可以忽略不计。如果一个字节序列看起来像UTF-8，那么它可能就是。

2010-07-31 22:53:25

UTF-8和UTF-8与BOM有什么区别?

推荐文章

最新文章

标签