JSON格式本身不支持二进制数据。二进制数据必须转义,以便可以将其放在JSON中的字符串元素中(即使用反斜杠转义的双引号中的零或多个Unicode字符)。

转义二进制数据的一个明显方法是使用Base64。然而,Base64有很高的处理开销。此外,它将3个字节扩展为4个字符,导致数据大小增加约33%。

其中一个用例是CDMI云存储API规范的0.8版草案。您可以使用JSON通过REST-Webservice创建数据对象,例如:

PUT /MyContainer/BinaryObject HTTP/1.1
Host: cloud.example.com
Accept: application/vnd.org.snia.cdmi.dataobject+json
Content-Type: application/vnd.org.snia.cdmi.dataobject+json
X-CDMI-Specification-Version: 1.0
{
    "mimetype" : "application/octet-stream",
    "metadata" : [ ],
    "value" :   "TWFuIGlzIGRpc3Rpbmd1aXNoZWQsIG5vdCBvbmx5IGJ5IGhpcyByZWFzb24sIGJ1dCBieSB0aGlz
    IHNpbmd1bGFyIHBhc3Npb24gZnJvbSBvdGhlciBhbmltYWxzLCB3aGljaCBpcyBhIGx1c3Qgb2Yg
    dGhlIG1pbmQsIHRoYXQgYnkgYSBwZXJzZXZlcmFuY2Ugb2YgZGVsaWdodCBpbiB0aGUgY29udGlu
    dWVkIGFuZCBpbmRlZmF0aWdhYmxlIGdlbmVyYXRpb24gb2Yga25vd2xlZGdlLCBleGNlZWRzIHRo
    ZSBzaG9ydCB2ZWhlbWVuY2Ugb2YgYW55IGNhcm5hbCBwbGVhc3VyZS4=",
}

是否有更好的方法和标准方法将二进制数据编码为JSON字符串?


当前回答

我现在的解决方案,XHR2使用ArrayBuffer。ArrayBuffer作为二进制序列,包含多种内容类型的多部分内容、视频、音频、图形、文本等。All in One Response。

在现代浏览器,有DataView, StringView和Blob为不同的组件。 详情请参见:http://rolfrost.de/video.html。

其他回答

根据JSON规范,有94个Unicode字符可以表示为一个字节(如果您的JSON以UTF-8传输)。考虑到这一点,我认为最好的空格方式是base85,它将四个字节表示为五个字符。然而,这只比base64提高了7%,它的计算成本更高,实现也不像base64那么常见,所以它可能不是一个胜利。

您还可以简单地将每个输入字节映射到U+0000-U+00FF中的相应字符,然后执行JSON标准所需的最小编码来传递这些字符;这里的优点是,除了内置函数之外,所需的解码为nil,但空间效率很差——105%的扩展(如果所有输入字节的可能性相等),而base85为25%,base64为33%。

最终结论:在我看来,base64胜出,因为它是常见的、简单的,而且还没有坏到需要替换的地步。

参见:Base91和Base122

在Node.js中,你可以在不做任何改变的情况下将Buffer转换成字符串:

const serialized = buffer.toString("binary")
const deserialized = Buffer.from(serialized, "binary")

如果你想通过牺牲大小来获得更高的可靠性,请将"binary"替换为"base64"

只是添加另一个选项,我们低级的恐龙程序员使用……

一种老式的方法是Intel HEX格式,这种方法已经存在了三年了。它建立于1973年,UNIX时代开始于1970年1月1日。

它的效率更高吗?不。 这是一个公认的标准吗?是的。 它是否像JSON那样适合人类阅读?是的,而且比大多数二进制解决方案更具可读性。

json看起来像这样:

{
    "data": [
    ":10010000214601360121470136007EFE09D2190140",
    ":100110002146017E17C20001FF5F16002148011928",
    ":10012000194E79234623965778239EDA3F01B2CAA7",
    ":100130003F0156702B5E712B722B732146013421C7",
    ":00000001FF"
    ]
}

我现在的解决方案,XHR2使用ArrayBuffer。ArrayBuffer作为二进制序列,包含多种内容类型的多部分内容、视频、音频、图形、文本等。All in One Response。

在现代浏览器,有DataView, StringView和Blob为不同的组件。 详情请参见:http://rolfrost.de/video.html。

由于您正在寻找将二进制数据硬塞进严格基于文本且非常有限的格式的能力,我认为Base64的开销与您期望使用JSON维护的便利性相比是最小的。如果需要考虑处理能力和吞吐量,那么可能需要重新考虑文件格式。