UTF-8、UTF-16和UTF-32之间有什么区别?

我知道它们都将存储Unicode,并且每个都使用不同的字节数来表示一个字符。选择一个比另一个有优势吗?


当前回答

我试图在我的博客中给出一个简单的解释。

utf - 32

需要32位(4字节)来编码任何字符。例如,为了使用这个方案来表示“A”字符代码点,你需要用32位二进制数字写65:

00000000 00000000 00000000 01000001 (Big Endian)

如果仔细观察,您会注意到最右边的7位实际上是使用ASCII格式时的相同位。但是由于UTF-32是固定宽度的方案,我们必须附加三个额外的字节。这意味着,如果我们有两个只包含“A”字符的文件,一个是ascii编码的,另一个是UTF-32编码的,它们的大小将分别为1字节和4字节。

utf - 16

许多人认为UTF-32使用固定宽度的32位来表示码位,UTF-16是固定宽度的16位。错了!

在UTF-16中,码位可以用16位或32位表示。所以这个方案是变长编码系统。与UTF-32相比,它的优势是什么?至少对于ASCII,文件的大小不会是原始文件的4倍(但仍然是两倍),所以我们仍然不能向后兼容ASCII。

由于7位足以表示“A”字符,我们现在可以使用2个字节,而不是像UTF-32那样使用4个字节。它看起来是这样的:

00000000 01000001

utf - 8

你猜对了。在UTF-8中,码位可以用32位、16位、24位或8位来表示,作为UTF-16系统,这也是一种变长编码系统。

最后,我们可以用与ASCII编码系统相同的方式来表示“A”:

01001101

一个小例子,UTF-16实际上比UTF-8更好:

考虑中文字母“語”,它的UTF-8编码是:

11101000 10101010 10011110

虽然它的UTF-16编码较短:

10001010 10011110

为了了解这种表达方式以及它是如何解释的,请访问原文。

其他回答

utf - 8

没有字节顺序的概念 每个字符使用1到4个字节 ASCII是一种兼容的编码子集 完全自同步,例如从流中的任何地方删除字节最多只会损坏一个字符 几乎所有的欧洲语言都是用两个字节或更少的字符编码的

utf - 16

必须使用已知的字节顺序进行解析,或者读取字节顺序标记(BOM)。 每个字符使用2或4个字节

utf - 32

每个字符是4个字节 必须使用已知的字节顺序进行解析,或者读取字节顺序标记(BOM)。

UTF-8将是空间效率最高的,除非大多数字符来自CJK(中国、日本和韩国)字符空间。

UTF-32最适合通过字符偏移量随机访问字节数组。

UTF-8在ASCII字符代表文本块中的大部分字符的情况下具有优势,因为UTF-8将这些字符编码为8位(像ASCII一样)。它的另一个优点是只包含ASCII字符的UTF-8文件具有与ASCII文件相同的编码。

在ASCII不占主导地位的情况下,UTF-16更好,因为它主要每个字符使用2个字节。UTF-8将开始对高阶字符使用3个或更多字节,而UTF-16对大多数字符仅使用2个字节。

UTF-32将在4字节内涵盖所有可能的字符。这使得它非常臃肿。我想不出使用它有什么好处。

我试图在我的博客中给出一个简单的解释。

utf - 32

需要32位(4字节)来编码任何字符。例如,为了使用这个方案来表示“A”字符代码点,你需要用32位二进制数字写65:

00000000 00000000 00000000 01000001 (Big Endian)

如果仔细观察,您会注意到最右边的7位实际上是使用ASCII格式时的相同位。但是由于UTF-32是固定宽度的方案,我们必须附加三个额外的字节。这意味着,如果我们有两个只包含“A”字符的文件,一个是ascii编码的,另一个是UTF-32编码的,它们的大小将分别为1字节和4字节。

utf - 16

许多人认为UTF-32使用固定宽度的32位来表示码位,UTF-16是固定宽度的16位。错了!

在UTF-16中,码位可以用16位或32位表示。所以这个方案是变长编码系统。与UTF-32相比,它的优势是什么?至少对于ASCII,文件的大小不会是原始文件的4倍(但仍然是两倍),所以我们仍然不能向后兼容ASCII。

由于7位足以表示“A”字符,我们现在可以使用2个字节,而不是像UTF-32那样使用4个字节。它看起来是这样的:

00000000 01000001

utf - 8

你猜对了。在UTF-8中,码位可以用32位、16位、24位或8位来表示,作为UTF-16系统,这也是一种变长编码系统。

最后,我们可以用与ASCII编码系统相同的方式来表示“A”:

01001101

一个小例子,UTF-16实际上比UTF-8更好:

考虑中文字母“語”,它的UTF-8编码是:

11101000 10101010 10011110

虽然它的UTF-16编码较短:

10001010 10011110

为了了解这种表达方式以及它是如何解释的,请访问原文。

Unicode定义了一个巨大的字符集,为每个图形符号分配一个唯一的整数值(这是一个主要的简化,实际上不是真的,但对于这个问题的目的来说已经足够接近了)。UTF-8/16/32只是编码的不同方式。

简而言之,UTF-32对每个字符使用32位值。这允许他们对每个字符使用固定宽度的代码。

UTF-16默认使用16位,但这只提供了65k个可能的字符,这远远不够完整的Unicode集。所以有些字符使用一对16位的值。

UTF-8默认使用8位值,这意味着前127个值是固定宽度的单字节字符(最高位用于表示这是多字节序列的开始,为实际的字符值留出7位)。所有其他字符编码为最多4个字节的序列(如果内存可用的话)。

这就引出了它的优点。任何ascii字符都与UTF-8直接兼容,因此对于升级遗留应用程序,UTF-8是一个常见而明显的选择。在几乎所有情况下,它也将使用最少的内存。另一方面,你不能保证字符的宽度。它可能是1、2、3或4个字符宽,这使得字符串操作困难。

UTF-32则相反,它使用最多的内存(每个字符都是固定的4字节宽),但另一方面,您知道每个字符都有这个精确的长度,因此字符串操作变得简单得多。您可以简单地根据字符串的字节长度计算字符串中的字符数。你不能用UTF-8这样做。

UTF-16是一种折衷。它让大多数字符适合固定宽度的16位值。所以只要你没有中文符号、音符或其他东西,你可以假设每个字符是16位宽。它比UTF-32使用更少的内存。但在某种程度上,这是“两败俱伤”。它几乎总是比UTF-8使用更多的内存,而且它仍然无法避免困扰UTF-8(变长字符)的问题。

最后,只使用平台支持的内容通常是有帮助的。Windows内部使用UTF-16,因此在Windows上,这是显而易见的选择。

Linux稍有不同,但它们通常使用UTF-8来处理所有与unicode兼容的内容。

简短的回答:所有三种编码都可以编码相同的字符集,但它们将每个字符表示为不同的字节序列。

我做了一些测试来比较MySQL中UTF-8和UTF-16之间的数据库性能。

更新的速度

utf - 8

utf - 16

插入的速度

删除速度