UTF-8和Unicode有什么区别?

根据维基百科UTF-8页面，我从人们那里听到了相互矛盾的观点。

它们是一样的，不是吗?有人能澄清一下吗?

当前回答

它们不是一回事——UTF-8是编码Unicode的一种特殊方式。

根据您的应用程序和您打算使用的数据，有许多不同的编码可供选择。据我所知，最常见的是UTF-8、UTF-16和UTF-32。

2009-03-13 17:09:23

其他回答

我已经检查了Gumbo的答案中的链接，我想在这里粘贴那些东西的一部分，以存在于Stack Overflow上。

＂...有些人错误地认为Unicode只是一个16位的代码，每个字符占用16位，因此有65,536个可能的字符。实际上，这是不对的。这是关于Unicode最常见的误解，所以如果你这样想，不要难过。

事实上，Unicode有一种不同的思考字符的方式，你必须理解Unicode思考事物的方式，否则就没有意义了。

到目前为止，我们假设一个字母映射到一些你可以存储在磁盘或内存中的位:

A -> 0100 0001

在Unicode中，字母映射到一个被称为码位的东西，这仍然只是一个理论概念。该代码点如何在内存或磁盘上表示则完全是另一回事……”

＂...Unicode联盟给每个字母表中的每个柏拉图式的字母都分配了一个神奇的数字，写起来是这样的:U+0639。这个神奇的数字被称为码位。U+表示“Unicode”，数字是十六进制的。U+0639是阿拉伯字母Ain。英文字母A就是U+0041....”

＂...假设我们有一个字符串

你好

在Unicode中，对应以下五个编码点:

U+0048 U+0065 U+ 006c U+ 006c U+ 006f。

只是一堆代码点。数字,真的。我们还没有说过如何将其存储在内存中或在电子邮件中表示它……”

＂...这就是编码的作用。

Unicode编码最早的想法，导致了关于两个字节的神话，嘿，让我们把这些数字分别存储在两个字节中。所以Hello变成了

00 48 00 65 00 6c 00 6c 00 6f

对吧?别这么快!难道不可能是:

48 00 65 00 6c 00 6c 00 6f 00 ?……”

2011-05-30 09:37:52

它们不是一回事——UTF-8是编码Unicode的一种特殊方式。

根据您的应用程序和您打算使用的数据，有许多不同的编码可供选择。据我所知，最常见的是UTF-8、UTF-16和UTF-32。

2009-03-13 17:09:23

你通常从谷歌开始，然后想尝试不同的东西。但是如何打印和转换所有这些字符集呢?

这里我列出了一些有用的一行程序。

Powershell:

# Print character with the Unicode point (U+<hexcode>) using this: 
[char]0x2550

# With Python installed, you can print the unicode character from U+xxxx with:
python -c 'print(u"\u2585")'

如果你有更多的Powershell trix或快捷方式，请评论。

在Bash中，你会喜欢libiconv和util-linux包中的iconv、hexdump和xxd(可能在其他*nix发行版中命名不同)。

# To print the 3-byte hex code for a Unicode character:
printf "\\\x%s" $(printf '═'|xxd -p -c1 -u)
#\xE2\x95\x90

# To print the Unicode character represented by hex string:
printf '\xE2\x96\x85'
#▅

# To convert from UTF-16LE to Unicode
echo -en "════"| iconv -f UTF-16LE -t UNICODEFFFE

# To convert a string into hex: 
echo -en '═�'| xxd -g 1
#00000000: e2 95 90 ef bf bd

# To convert a string into binary:
echo -en '═�\n'| xxd -b
#00000000: 11100010 10010101 10010000 11101111 10111111 10111101  ......
#00000006: 00001010

# To convert a binary string into hex:
printf  '%x\n' "$((2#111000111000000110000010))"
#e38182

2022-01-04 14:50:54

1. Unicode

有很多世界各地的字符,如“$,& h,, t, ?,张,1 = +……”。

然后出现了一个致力于这些角色的组织，

他们制定了统一码标准。

标准如下:

创建一个表单，其中每个位置都称为“代码点”或“代码位置”。整个位置从U+0000到U+10FFFF; 到目前为止，有些位置被字符填充，有些位置被保存或为空。例如，位置“U+0024”被字符“$”填充。

PS:当然，还有另一个叫做ISO的组织维护着另一个标准——“iso10646”，几乎是一样的。

2. utf - 8

如上所述，U+0024只是一个位置，所以我们不能将“U+0024”在电脑中保存为字符“$”。

必须有一种编码方法。

然后是编码方法，如UTF-8,UTF-16,UTF-32,UCS-2....

在UTF-8下，代码点“U+0024”被编码为00100100。

00100100是我们在计算机中为“$”保存的值。

2015-01-05 09:28:52

如果我可以总结一下我从这篇文章中收集到的信息:

Unicode将字符分配给序数(十进制形式)。(这些数字被称为码位。)

à -> 224

UTF-8是一种将这些序数(十进制形式)“转换”为二进制表示的编码。

224 -> 11000011 10100000

注意，我们讨论的是224的二进制表示，而不是它的二进制形式，即0b11100000。

2019-07-18 07:17:46

UTF-8和Unicode有什么区别?

推荐文章

最新文章

标签