UTF-8和Unicode有什么区别?

根据维基百科UTF-8页面，我从人们那里听到了相互矛盾的观点。

它们是一样的，不是吗?有人能澄清一下吗?

当前回答

这篇文章解释了所有细节 http://kunststube.net/encoding/

写入缓冲区

如果你写入一个4字节的缓冲区，符号あUTF8编码，你的二进制将看起来像这样:

00000000 11100011 10000001 10000010

如果你写入一个4字节的缓冲区，使用UTF16编码的符号あ，你的二进制将看起来像这样:

00000000 00000000 00110000 01000010

正如你所看到的，根据你在内容中使用的语言，这将相应地影响你的记忆。

例如，对于这个特定的符号:あUTF16编码更有效，因为我们有2个空闲字节用于下一个符号。但这并不意味着你必须使用UTF16来表示日本字母。

从缓冲区读取

现在，如果你想读取上面的字节，你必须知道它是用什么编码写的，并正确解码回来。

例:如果你解码这个: 00000000 11100011 10000001 10000010 转换为UTF16编码，你将得到臣而不是あ

注意:Encoding和Unicode是两个不同的东西。Unicode是一个大(表)，每个符号都映射到一个唯一的码点。例如，あ符号(字母)有一个(码位):30 42(十六进制)。另一方面，编码是一种将符号转换为更合适的方式的算法，当存储到硬件时。

30 42 (hex) - > UTF8 encoding - > E3 81 82 (hex), which is above result in binary.

30 42 (hex) - > UTF16 encoding - > 30 42 (hex), which is above result in binary.

2019-10-12 04:30:59

其他回答

Unicode只定义码位，即代表一个字符的数字。如何在内存中存储这些代码点取决于所使用的编码。UTF-8是编码Unicode字符的一种方式。

2009-03-13 17:14:36

UTF-8是一种使用8位序列编码Unicode字符的方法。

Unicode是一种用于表示来自多种语言的各种字符的标准。

2018-01-26 13:35:55

Unicode是与ISO/IEC 10646一起定义通用字符集(UCS)的标准，UCS是表示几乎所有已知语言所需的所有现有字符的超集。

Unicode为其存储库中的每个字符分配一个名称和一个数字(字符代码或代码点)。

UTF-8编码，是一种在计算机内存中以数字方式表示这些字符的方法。UTF-8将每个码位映射到一个八字节序列(8位字节)

,例如,

UCS字符= Unicode字符

UCS代码点= U+24B62

UTF-8 encoding = F0 A4 AD A2 (hex) = 11110000 10100100 10101101 10100010 (bin)

2013-02-24 18:36:01

这篇文章解释了所有细节 http://kunststube.net/encoding/

写入缓冲区

如果你写入一个4字节的缓冲区，符号あUTF8编码，你的二进制将看起来像这样:

00000000 11100011 10000001 10000010

如果你写入一个4字节的缓冲区，使用UTF16编码的符号あ，你的二进制将看起来像这样:

00000000 00000000 00110000 01000010

正如你所看到的，根据你在内容中使用的语言，这将相应地影响你的记忆。

例如，对于这个特定的符号:あUTF16编码更有效，因为我们有2个空闲字节用于下一个符号。但这并不意味着你必须使用UTF16来表示日本字母。

从缓冲区读取

现在，如果你想读取上面的字节，你必须知道它是用什么编码写的，并正确解码回来。

例:如果你解码这个: 00000000 11100011 10000001 10000010 转换为UTF16编码，你将得到臣而不是あ

30 42 (hex) - > UTF8 encoding - > E3 81 82 (hex), which is above result in binary.

30 42 (hex) - > UTF16 encoding - > 30 42 (hex), which is above result in binary.

2019-10-12 04:30:59

它们是一样的，不是吗?

不，他们不是。

我认为你引用的维基百科页面的第一句话给出了一个很好的，简短的总结:

UTF-8是一种可变宽度字符编码，能够使用一到四个8位字节编码Unicode中的所有1,112,064个有效代码点。

阐述:

Unicode is a standard, which defines a map from characters to numbers, the so-called code points, (like in the example below). For the full mapping, you can have a look here. ! -> U+0021 (21), " -> U+0022 (22), \# -> U+0023 (23) UTF-8 is one of the ways to encode these code points in a form a computer can understand, aka bits. In other words, it's a way/algorithm to convert each of those code points to a sequence of bits or convert a sequence of bits to the equivalent code points. Note that there are a lot of alternative encodings for Unicode.

乔尔给出了一个非常好的解释，并概述了这里的历史。

2018-01-11 19:12:34

UTF-8和Unicode有什么区别?

推荐文章

最新文章

标签