如何从JSON获得字符串对象而不是Unicode

我使用Python 2从ASCII编码的文本文件解析JSON。

当用json或simplejson加载这些文件时，我的所有字符串值都转换为Unicode对象而不是字符串对象。问题是，我必须将数据与一些只接受字符串对象的库一起使用。我不能更改库也不能更新它们。

是否有可能获得字符串对象而不是Unicode对象?

例子

>>> import json
>>> original_list = ['a', 'b']
>>> json_list = json.dumps(original_list)
>>> json_list
'["a", "b"]'
>>> new_list = json.loads(json_list)
>>> new_list
[u'a', u'b']  # I want these to be of type `str`, not `unicode`

(2017年一个简单而干净的解决方案是使用最新版本的Python——即Python 3和更高版本。)

当前回答

Mark (Amery)正确地指出:在JSON转储上使用PyYAML的反序列化器仅在只有ASCII时有效。至少是开箱即用。

关于PyYAML方法的两个简短评论:

永远不要对来自字段的数据使用yaml.load()。这是YAML的一个特性(!)，可以执行隐藏在结构中的任意代码。你也可以通过以下方法使它适用于非ASCII: Def to_utf8(加载器，节点): 返回loader.construct_scalar(节点).encode(“utf - 8”) yaml.add_constructor (u 'tag: yaml.org, 2002: str ', to_utf8)

但就性能而言，这与马克·艾默里的答案无法相提并论:

将一些深度嵌套的样本字典扔到这两个方法上，我得到了这个(与dt[j] = json.loads(json.dumps(m))的时间delta):

     dt[yaml.safe_load(json.dumps(m))] =~ 100 * dt[j]
     dt[byteify recursion(Mark Amery)] =~   5 * dt[j]

因此，反序列化(包括完全遍历树和编码)完全在基于c语言的JSON实现的数量级之内。我发现这非常快，而且在深度嵌套结构上比yaml加载更健壮。更少的安全错误，看yaml.load。

虽然我很喜欢一个指向c语言的转换器的指针，但byteify函数应该是默认答案。

如果JSON结构来自包含用户输入的字段，则尤其如此。因为这样你可能需要遍历你的结构——独立于你想要的内部数据结构(“unicode三明治”或字节字符串)。

Why?

Unicode正常化。给不知情的人:吃片止痛药，看看这篇文章。

所以使用byteify递归你一石二鸟:

从嵌套的JSON转储中获取字节串让用户输入值正常化，这样你就可以在你的存储中找到东西。

在我的测试中，结果是将input.encode('utf-8')替换为unicodedata。normalize('NFC'， input).encode('utf-8')甚至比没有NFC时还要快——但我猜这在很大程度上依赖于样本数据。

2015-04-14 17:36:25

其他回答

问题在于simplejson和json是两个不同的模块，至少在处理Unicode的方式上是这样。你在Python 2.6+中有json，它给你Unicode值，而simplejson返回字符串对象。

在您的环境中尝试easy_installing -ing simplejson，看看是否有效。对我来说确实如此。

2010-10-19 19:48:34

使用Python 3.6，有时我仍然会遇到这个问题。例如，当从REST API获取响应并将响应文本加载到JSON时，我仍然得到Unicode字符串。使用json.dumps()找到了一个简单的解决方案。

response_message = json.loads(json.dumps(response.text))
print(response_message)

2018-04-25 17:17:55

我构建了这个递归施法者。它符合我的需要，我认为它是相对完整的。

def _parseJSON(self, obj):
    newobj = {}

    for key, value in obj.iteritems():
        key = str(key)

        if isinstance(value, dict):
            newobj[key] = self._parseJSON(value)
        elif isinstance(value, list):
            if key not in newobj:
                newobj[key] = []
                for i in value:
                    newobj[key].append(self._parseJSON(i))
        elif isinstance(value, unicode):
            val = str(value)
            if val.isdigit():
                val = int(val)
            else:
                try:
                    val = float(val)
                except ValueError:
                    val = str(val)
            newobj[key] = val

    return newobj

只需要像这样传递一个JSON对象:

obj = json.loads(content, parse_float=float, parse_int=int)
obj = _parseJSON(obj)

我把它作为一个类的私有成员，但您可以根据需要重新使用该方法。

2009-10-29 03:53:43

我有一个JSON字典作为字符串。键和值是Unicode对象，如下例所示:

myStringDict = "{u'key':u'value'}"

我可以使用上面建议的byteify函数，使用ast.literal_eval(myStringDict)将字符串转换为dict对象。

2015-01-30 10:12:14

只需使用pickle而不是json来转储和加载，如下所示:

    import json
    import pickle

    d = { 'field1': 'value1', 'field2': 2, }

    json.dump(d,open("testjson.txt","w"))

    print json.load(open("testjson.txt","r"))

    pickle.dump(d,open("testpickle.txt","w"))

    print pickle.load(open("testpickle.txt","r"))

它产生的输出是(字符串和整数被正确处理):

    {u'field2': 2, u'field1': u'value1'}
    {'field2': 2, 'field1': 'value1'}

2014-04-27 20:15:01

如何从JSON获得字符串对象而不是Unicode

推荐文章

最新文章

标签