UTF-8和UTF-8与BOM有什么区别?

UTF-8和UTF-8与BOM有什么不同?哪个更好?

当前回答

BOM倾向于在某个地方爆炸(没有双关语)。当它突然出现时(例如，无法被浏览器、编辑器等识别)，它会以奇怪的字符ï»¿出现在文档的开头(例如，HTML文件、JSON响应、RSS等)，并导致类似于最近奥巴马在Twitter上谈话时经历的编码问题那样的尴尬。

当它出现在难以调试的地方或当测试被忽略时，这是非常令人讨厌的。所以除非必须使用，否则最好避免使用。

2011-07-11 07:56:16

其他回答

UTF-8和没有BOM的UTF-8有什么不同?

简单回答:在UTF-8中，BOM编码为文件开头的字节EF BB BF。

长一点的回答:

最初，预计Unicode将以UTF-16/UCS-2编码。BOM是为这种编码形式设计的。当您有2字节的代码单元时，有必要指出这两个字节的顺序，这样做的一个常见惯例是在数据的开头包含字符U+FEFF作为“字节顺序标记”。字符U+FFFE是永久未分配的，因此可以使用它来检测错误的字节顺序。

不管平台字节顺序如何，UTF-8都具有相同的字节顺序，因此不需要字节顺序标记。然而，它可能出现在从UTF-16转换为UTF-8的数据中(作为字节序列EF BB FF)，或者作为表示数据为UTF-8的“签名”。

哪个更好?

没有。正如Martin Cote回答的那样，Unicode标准并不推荐这样做。它会导致非bom识别软件出现问题。

检测文件是否为UTF-8的更好方法是执行有效性检查。UTF-8对哪些字节序列是有效的有严格的规则，因此假阳性的概率可以忽略不计。如果一个字节序列看起来像UTF-8，那么它可能就是。

2010-07-31 22:53:25

应该注意的是，对于某些文件，即使在Windows上也不能有BOM。例如SQL*plus或VBScript文件。如果这样的文件包含BOM，则在尝试执行它们时会出现错误。

2015-01-31 21:09:28

没有BOM的UTF-8没有BOM，这并不意味着它比有BOM的UTF-8更好，除非文件的消费者需要知道(或者从知道中受益)文件是否是UTF-8编码的。

BOM通常用于确定编码的字节序，这对于大多数用例来说是不需要的。

此外，对于那些不了解或不关心BOM的消费者来说，BOM可能是不必要的噪音/痛苦，并可能导致用户困惑。

2010-02-08 18:30:19

以下是我使用Visual Studio、Sourcetree和Bitbucket拉请求的经验，这给了我一些问题:

因此，在审查拉取请求时，带有签名的BOM将在每个文件上包含一个红点字符(这可能非常烦人)。

如果你把鼠标停在上面，它会显示一个像“ufeff”这样的字符，但事实证明Sourcetree不显示这些类型的字节标记，所以它很可能会在你的拉请求中结束，这应该是可以的，因为这是Visual Studio 2017现在编码新文件的方式，所以也许Bitbucket应该忽略这个或让它以另一种方式显示，更多信息在这里:

红点标记BitBucket差异视图

2019-07-31 09:30:27

Unicode字节顺序标记(BOM)常见问题解答提供了一个简明的答案:

Q: How I should deal with BOMs? A: Here are some guidelines to follow: A particular protocol (e.g. Microsoft conventions for .txt files) may require use of the BOM on certain Unicode data streams, such as files. When you need to conform to such a protocol, use a BOM. Some protocols allow optional BOMs in the case of untagged text. In those cases, Where a text data stream is known to be plain text, but of unknown encoding, BOM can be used as a signature. If there is no BOM, the encoding could be anything. Where a text data stream is known to be plain Unicode text (but not which endian), then BOM can be used as a signature. If there is no BOM, the text should be interpreted as big-endian. Some byte oriented protocols expect ASCII characters at the beginning of a file. If UTF-8 is used with these protocols, use of the BOM as encoding form signature should be avoided. Where the precise type of the data stream is known (e.g. Unicode big-endian or Unicode little-endian), the BOM should not be used. In particular, whenever a data stream is declared to be UTF-16BE, UTF-16LE, UTF-32BE or UTF-32LE a BOM must not be used.

2018-03-08 13:58:08

UTF-8和UTF-8与BOM有什么区别?

推荐文章

最新文章

标签