Unicode和UTF-8的区别是什么?

实际上，大多数编辑器都支持另存为“Unicode”编码。

这是Windows的一个不幸的错误命名。

因为Windows内部使用UTF-16LE编码作为Unicode字符串的内存存储格式，它认为这是Unicode文本的自然编码。在Windows世界中，有ANSI字符串(当前机器上的系统代码页，受限于完全不可移植性)和Unicode字符串(在内部存储为UTF-16LE)。

这些都是在Unicode的早期设计的，在我们意识到UCS-2是不够的，在UTF-8被发明之前。这就是为什么Windows对UTF-8的支持在各方面都很差。

这个错误的命名方案成为用户界面的一部分。使用Windows编码支持来提供一系列编码的文本编辑器会自动且不恰当地将UTF-16LE描述为“Unicode”，而将UTF-16BE(如果提供的话)描述为“Unicode大端典”。

(其他自己进行编码的编辑器，如notepad++，就没有这个问题。)

' ANSI '字符串也不是基于任何ANSI标准，如果这让你感觉更好的话。

Unicode的开发是有目的的致力于创建映射的新标准在绝大多数的字符今天使用的语言，和其他角色一起不是那么重要，但可能是创建文本所必需的。utf - 8 只是你众多方式中的一种可以编码的文件，因为有编码的方法有很多文件中的字符转换为Unicode。

来源:

http://www.differencebetween.net/technology/difference-between-unicode-and-utf-8/

除了Trufa的注释之外，Unicode还明确不是UTF-16。当他们第一次研究Unicode时，人们推测16位整数可能足以存储任何代码，但实际上并非如此。然而，UTF-16是Unicode的另一种有效编码(除了8位和32位变体)，我相信这是微软在nt派生操作系统运行时在内存中使用的编码。

实际上，大多数编辑器都支持另存为“Unicode”编码。

这是Windows的一个不幸的错误命名。

因为Windows内部使用UTF-16LE编码作为Unicode字符串的内存存储格式，它认为这是Unicode文本的自然编码。在Windows世界中，有ANSI字符串(当前机器上的系统代码页，受限于完全不可移植性)和Unicode字符串(在内部存储为UTF-16LE)。

这些都是在Unicode的早期设计的，在我们意识到UCS-2是不够的，在UTF-8被发明之前。这就是为什么Windows对UTF-8的支持在各方面都很差。

这个错误的命名方案成为用户界面的一部分。使用Windows编码支持来提供一系列编码的文本编辑器会自动且不恰当地将UTF-16LE描述为“Unicode”，而将UTF-16BE(如果提供的话)描述为“Unicode大端典”。

(其他自己进行编码的编辑器，如notepad++，就没有这个问题。)

' ANSI '字符串也不是基于任何ANSI标准，如果这让你感觉更好的话。

事情没那么简单。

UTF-16是一种16位可变宽度编码。简单地称某种东西为“Unicode”是有歧义的，因为“Unicode”指的是一整套字符编码标准。Unicode不是编码!

http://en.wikipedia.org/wiki/Unicode#Unicode_Transformation_Format_and_Universal_Character_Set

当然，还有强制性的Joel On Software -每个软件开发人员绝对必须了解Unicode和字符集(没有借口!)的绝对最小值链接。

让我们首先记住，数据是以字节的形式存储的;Unicode是一个字符集，其中字符映射到代码点(唯一整数)，我们需要一些东西来将这些代码点数据转换为字节。这就是UTF-8编码的由来——简单!

推荐文章