UTF-8和Unicode有什么区别?

根据维基百科UTF-8页面，我从人们那里听到了相互矛盾的观点。

它们是一样的，不是吗?有人能澄清一下吗?

当前回答

作为一个直截了当的简单回答:

Unicode是一种表示多种人类语言字符的标准。 UTF-8是一种编码Unicode字符的方法。

是的:我故意忽略了UTF-8的内部工作原理。

2021-11-10 21:52:53

其他回答

Unicode是与ISO/IEC 10646一起定义通用字符集(UCS)的标准，UCS是表示几乎所有已知语言所需的所有现有字符的超集。

Unicode为其存储库中的每个字符分配一个名称和一个数字(字符代码或代码点)。

UTF-8编码，是一种在计算机内存中以数字方式表示这些字符的方法。UTF-8将每个码位映射到一个八字节序列(8位字节)

,例如,

UCS字符= Unicode字符

UCS代码点= U+24B62

UTF-8 encoding = F0 A4 AD A2 (hex) = 11110000 10100100 10101101 10100010 (bin)

2013-02-24 18:36:01

Unicode只定义码位，即代表一个字符的数字。如何在内存中存储这些代码点取决于所使用的编码。UTF-8是编码Unicode字符的一种方式。

2009-03-13 17:14:36

这篇文章解释了所有细节 http://kunststube.net/encoding/

写入缓冲区

如果你写入一个4字节的缓冲区，符号あUTF8编码，你的二进制将看起来像这样:

00000000 11100011 10000001 10000010

如果你写入一个4字节的缓冲区，使用UTF16编码的符号あ，你的二进制将看起来像这样:

00000000 00000000 00110000 01000010

正如你所看到的，根据你在内容中使用的语言，这将相应地影响你的记忆。

例如，对于这个特定的符号:あUTF16编码更有效，因为我们有2个空闲字节用于下一个符号。但这并不意味着你必须使用UTF16来表示日本字母。

从缓冲区读取

现在，如果你想读取上面的字节，你必须知道它是用什么编码写的，并正确解码回来。

例:如果你解码这个: 00000000 11100011 10000001 10000010 转换为UTF16编码，你将得到臣而不是あ

注意:Encoding和Unicode是两个不同的东西。Unicode是一个大(表)，每个符号都映射到一个唯一的码点。例如，あ符号(字母)有一个(码位):30 42(十六进制)。另一方面，编码是一种将符号转换为更合适的方式的算法，当存储到硬件时。

30 42 (hex) - > UTF8 encoding - > E3 81 82 (hex), which is above result in binary.

30 42 (hex) - > UTF16 encoding - > 30 42 (hex), which is above result in binary.

2019-10-12 04:30:59

不幸的是，“Unicode”根据上下文以各种不同的方式使用。它最正确的用法(IMO)是作为编码字符集——即一组字符以及字符与表示它们的整数码位之间的映射。

UTF-8是一种字符编码——一种将字节序列转换为字符序列的方法，反之亦然。它涵盖了整个Unicode字符集。ASCII编码为每个字符一个字节，其他字符根据其确切的码位占用更多字节(当前定义的所有码位最多4个字节，即最多U-0010FFFF，实际上4个字节可以处理最多U-001FFFFF)。

当“Unicode”被用作字符编码的名称时(例如，作为. net编码。Unicode属性)通常表示UTF-16，它将大多数常见字符编码为两个字节。一些平台(特别是。net和Java)使用UTF-16作为它们的“原生”字符编码。如果您需要担心不能在单个UTF-16值中编码的字符(它们被编码为“代理对”)，这将导致一些棘手的问题——但大多数开发人员从不担心这一点，IME。

关于Unicode的一些参考:

Unicode联盟网站，特别是教程部分乔尔的文章我自己的文章(面向. net)

2009-03-13 17:11:10

它们不是一回事——UTF-8是编码Unicode的一种特殊方式。

根据您的应用程序和您打算使用的数据，有许多不同的编码可供选择。据我所知，最常见的是UTF-8、UTF-16和UTF-32。

2009-03-13 17:09:23

UTF-8和Unicode有什么区别?

推荐文章

最新文章

标签