如何从JSON获得字符串对象而不是Unicode

我使用Python 2从ASCII编码的文本文件解析JSON。

当用json或simplejson加载这些文件时，我的所有字符串值都转换为Unicode对象而不是字符串对象。问题是，我必须将数据与一些只接受字符串对象的库一起使用。我不能更改库也不能更新它们。

是否有可能获得字符串对象而不是Unicode对象?

例子

>>> import json
>>> original_list = ['a', 'b']
>>> json_list = json.dumps(original_list)
>>> json_list
'["a", "b"]'
>>> new_list = json.loads(json_list)
>>> new_list
[u'a', u'b']  # I want these to be of type `str`, not `unicode`

(2017年一个简单而干净的解决方案是使用最新版本的Python——即Python 3和更高版本。)

当前回答

使用Python 3.6，有时我仍然会遇到这个问题。例如，当从REST API获取响应并将响应文本加载到JSON时，我仍然得到Unicode字符串。使用json.dumps()找到了一个简单的解决方案。

response_message = json.loads(json.dumps(response.text))
print(response_message)

2018-04-25 17:17:55

其他回答

我也遇到了同样的问题。

因为我需要将所有数据传递给PyGTK，所以Unicode字符串对我来说也不是很有用。这是另一种递归转换方法。实际上，类型安全的JSON转换也需要它——JSON .dump()会放弃任何非字面量，比如Python对象。但是它不转换字典索引。

# removes any objects, turns Unicode back into str
def filter_data(obj):
        if type(obj) in (int, float, str, bool):
                return obj
        elif type(obj) == unicode:
                return str(obj)
        elif type(obj) in (list, tuple, set):
                obj = list(obj)
                for i,v in enumerate(obj):
                        obj[i] = filter_data(v)
        elif type(obj) == dict:
                for i,v in obj.iteritems():
                        obj[i] = filter_data(v)
        else:
                print "invalid object in data, converting to string"
                obj = str(obj)
        return obj

2010-07-05 18:22:51

Mark (Amery)正确地指出:在JSON转储上使用PyYAML的反序列化器仅在只有ASCII时有效。至少是开箱即用。

关于PyYAML方法的两个简短评论:

永远不要对来自字段的数据使用yaml.load()。这是YAML的一个特性(!)，可以执行隐藏在结构中的任意代码。你也可以通过以下方法使它适用于非ASCII: Def to_utf8(加载器，节点): 返回loader.construct_scalar(节点).encode(“utf - 8”) yaml.add_constructor (u 'tag: yaml.org, 2002: str ', to_utf8)

但就性能而言，这与马克·艾默里的答案无法相提并论:

将一些深度嵌套的样本字典扔到这两个方法上，我得到了这个(与dt[j] = json.loads(json.dumps(m))的时间delta):

     dt[yaml.safe_load(json.dumps(m))] =~ 100 * dt[j]
     dt[byteify recursion(Mark Amery)] =~   5 * dt[j]

因此，反序列化(包括完全遍历树和编码)完全在基于c语言的JSON实现的数量级之内。我发现这非常快，而且在深度嵌套结构上比yaml加载更健壮。更少的安全错误，看yaml.load。

虽然我很喜欢一个指向c语言的转换器的指针，但byteify函数应该是默认答案。

如果JSON结构来自包含用户输入的字段，则尤其如此。因为这样你可能需要遍历你的结构——独立于你想要的内部数据结构(“unicode三明治”或字节字符串)。

Why?

Unicode正常化。给不知情的人:吃片止痛药，看看这篇文章。

所以使用byteify递归你一石二鸟:

从嵌套的JSON转储中获取字节串让用户输入值正常化，这样你就可以在你的存储中找到东西。

在我的测试中，结果是将input.encode('utf-8')替换为unicodedata。normalize('NFC'， input).encode('utf-8')甚至比没有NFC时还要快——但我猜这在很大程度上依赖于样本数据。

2015-04-14 17:36:25

我构建了这个递归施法者。它符合我的需要，我认为它是相对完整的。

def _parseJSON(self, obj):
    newobj = {}

    for key, value in obj.iteritems():
        key = str(key)

        if isinstance(value, dict):
            newobj[key] = self._parseJSON(value)
        elif isinstance(value, list):
            if key not in newobj:
                newobj[key] = []
                for i in value:
                    newobj[key].append(self._parseJSON(i))
        elif isinstance(value, unicode):
            val = str(value)
            if val.isdigit():
                val = int(val)
            else:
                try:
                    val = float(val)
                except ValueError:
                    val = str(val)
            newobj[key] = val

    return newobj

只需要像这样传递一个JSON对象:

obj = json.loads(content, parse_float=float, parse_int=int)
obj = _parseJSON(obj)

我把它作为一个类的私有成员，但您可以根据需要重新使用该方法。

2009-10-29 03:53:43

只需使用pickle而不是json来转储和加载，如下所示:

    import json
    import pickle

    d = { 'field1': 'value1', 'field2': 2, }

    json.dump(d,open("testjson.txt","w"))

    print json.load(open("testjson.txt","r"))

    pickle.dump(d,open("testpickle.txt","w"))

    print pickle.load(open("testpickle.txt","r"))

它产生的输出是(字符串和整数被正确处理):

    {u'field2': 2, u'field1': u'value1'}
    {'field2': 2, 'field1': 'value1'}

2014-04-27 20:15:01

有一个简单的变通办法。

DR -使用ast.literal_eval()代替json.loads()。ast和json都在标准库中。

虽然这不是一个“完美”的答案，但如果您的计划是完全忽略Unicode，那么它就相当不错了。Python 2.7

import json, ast
d = { 'field' : 'value' }
print "JSON Fail: ", json.loads(json.dumps(d))
print "AST Win:", ast.literal_eval(json.dumps(d))

给:

JSON Fail:  {u'field': u'value'}
AST Win: {'field': 'value'}

当一些对象实际上是Unicode字符串时，这就变得更麻烦了。完整的答案很快就变得棘手起来。

2013-11-07 01:01:43

如何从JSON获得字符串对象而不是Unicode

推荐文章

最新文章

标签