UTF-8和UTF-8与BOM有什么区别?

UTF-8和UTF-8与BOM有什么不同?哪个更好?

当前回答

引用于维基百科页面底部BOM: http://en.wikipedia.org/wiki/Byte-order_mark#cite_note-2

对于UTF-8，使用BOM既不要求也不推荐，但在从使用BOM的其他编码形式转换UTF-8数据或将BOM用作UTF-8签名的上下文中可能会遇到这种情况。

其他回答

只有当文件实际包含一些非ascii字符时，UTF-8和BOM才有用。如果包含了它，而没有任何ASCII，那么它可能会破坏旧的应用程序，否则将文件解释为纯ASCII。当遇到非ASCII字符时，这些应用程序肯定会失败，因此在我看来，只有当文件可以并且不应该再被解释为纯ASCII时，才应该添加BOM。

我想说清楚的是，我宁愿没有BOM。如果一些旧的垃圾没有它就坏了，那么就添加它，替换遗留应用程序是不可行的。

不要制作UTF-8的BOM之外的任何东西。

BOM倾向于在某个地方爆炸(没有双关语)。当它突然出现时(例如，无法被浏览器、编辑器等识别)，它会以奇怪的字符ï»¿出现在文档的开头(例如，HTML文件、JSON响应、RSS等)，并导致类似于最近奥巴马在Twitter上谈话时经历的编码问题那样的尴尬。

当它出现在难以调试的地方或当测试被忽略时，这是非常令人讨厌的。所以除非必须使用，否则最好避免使用。

当您希望显示以UTF-8编码的信息时，可能不会遇到问题。例如，将HTML文档声明为UTF-8，您将在浏览器中显示文档主体中包含的所有内容。

但在Windows或Linux上，当我们有文本、CSV和XML文件时，情况就不同了。

例如，Windows或Linux中的文本文件，这是最简单的事情之一，它(通常)不是UTF-8。

保存为XML并声明为UTF-8:

<?xml version="1.0" encoding="UTF-8"?>

即使声明为UTF-8，它也不能正确显示(不能读取)。

我有一串包含法语字母的数据，需要将其保存为XML以进行联合。无需从一开始就创建UTF-8文件(更改IDE中的选项和“创建新文件”)或在文件开头添加BOM

$file="\xEF\xBB\xBF".$string;

我无法将法语字母保存在XML文件中。

没有BOM的UTF-8没有BOM，这并不意味着它比有BOM的UTF-8更好，除非文件的消费者需要知道(或者从知道中受益)文件是否是UTF-8编码的。

BOM通常用于确定编码的字节序，这对于大多数用例来说是不需要的。

此外，对于那些不了解或不关心BOM的消费者来说，BOM可能是不必要的噪音/痛苦，并可能导致用户困惑。

应该注意的是，对于某些文件，即使在Windows上也不能有BOM。例如SQL*plus或VBScript文件。如果这样的文件包含BOM，则在尝试执行它们时会出现错误。

推荐文章