我对编码有点困惑。据我所知,旧的ASCII字符每个字符占用一个字节。一个Unicode字符需要多少字节?
我假设一个Unicode字符可以包含任何语言的所有可能字符——我说的对吗?那么每个字符需要多少字节呢?
UTF-7、UTF-6、UTF-16等是什么意思?它们是Unicode的不同版本吗?
我读了维基百科上关于统一码的文章,但对我来说太难了。我期待看到一个简单的答案。
我对编码有点困惑。据我所知,旧的ASCII字符每个字符占用一个字节。一个Unicode字符需要多少字节?
我假设一个Unicode字符可以包含任何语言的所有可能字符——我说的对吗?那么每个字符需要多少字节呢?
UTF-7、UTF-6、UTF-16等是什么意思?它们是Unicode的不同版本吗?
我读了维基百科上关于统一码的文章,但对我来说太难了。我期待看到一个简单的答案。
当前回答
有一个很好的工具可以计算UTF-8中任何字符串的字节数:http://mothereff.in/byte-counter
更新:@mathias已公开代码:https://github.com/mathiasbynens/mothereff.in/blob/master/byte-counter/eff.js
其他回答
有一个很好的工具可以计算UTF-8中任何字符串的字节数:http://mothereff.in/byte-counter
更新:@mathias已公开代码:https://github.com/mathiasbynens/mothereff.in/blob/master/byte-counter/eff.js
对于UTF-16,如果字符以0xD800或更大开头,则需要四个字节(两个代码单元);这样的字符称为“代理对”。更具体地说,代理对的形式是:
[0xD800 - 0xDBFF] [0xDC00 - 0xDFF]
在[…]表示给定范围的双字节代码单元。任何<= 0xD7FF的值都是一个代码单元(两个字节)。任何>= 0xE000都是无效的(BOM标记除外)。
参见http://unicodebook.readthedocs.io/unicode_encodings.html,第7.5节。
看看这个Unicode代码转换器。例如,在“0x…”字段,然后单击Convert。十六进制数E2 80 89(3字节)出现在“UTF-8 code units”字段中。
从维基:
UTF-8, 8位可变宽度编码,最大限度地兼容ASCII; UTF-16,一种16位变宽编码; UTF-32, 32位,固定宽度编码。
这是三种最流行的不同编码。
在UTF-8中,每个字符被编码成1到4个字节(主要编码) 在UTF16中,每个字符被编码成1到2个16位的单词和 在UTF-32中,每个字符都被编码为一个32位的单词。
你不会看到一个简单的答案,因为根本就没有答案。
首先,Unicode并没有包含“每一种语言的每一个字符”,尽管它确实尝试了。
Unicode本身是一种映射,它定义码点,码点是一个数字,通常与一个字符相关联。我说通常是因为有像组合字符这样的概念。你可能对口音或变音很熟悉。它们可以与其他字符一起使用,例如a或u来创建一个新的逻辑字符。因此,一个字符可以由一个或多个码位组成。
To be useful in computing systems we need to choose a representation for this information. Those are the various unicode encodings, such as utf-8, utf-16le, utf-32 etc. They are distinguished largely by the size of of their codeunits. UTF-32 is the simplest encoding, it has a codeunit that is 32bits, which means an individual codepoint fits comfortably into a codeunit. The other encodings will have situations where a codepoint will need multiple codeunits, or that particular codepoint can't be represented in the encoding at all (this is a problem for instance with UCS-2).
由于组合字符的灵活性,即使在给定的编码中,每个字符的字节数也可以根据字符和规范化形式而变化。这是一种用于处理具有多个表示的字符的协议(您可以说“带重音的'a'”是2个代码点,其中一个是组合字符或“带重音的'a'”是一个代码点)。