我有一个大字典对象,它有几个键值对(大约16个),但我只对其中3个感兴趣。将这样的字典子集化的最佳方法(最短/有效/最优雅)是什么?
我知道的最好的是:
bigdict = {'a':1,'b':2,....,'z':26}
subdict = {'l':bigdict['l'], 'm':bigdict['m'], 'n':bigdict['n']}
我相信有比这更优雅的方式。
我有一个大字典对象,它有几个键值对(大约16个),但我只对其中3个感兴趣。将这样的字典子集化的最佳方法(最短/有效/最优雅)是什么?
我知道的最好的是:
bigdict = {'a':1,'b':2,....,'z':26}
subdict = {'l':bigdict['l'], 'm':bigdict['m'], 'n':bigdict['n']}
我相信有比这更优雅的方式。
当前回答
interesting_keys = ('l', 'm', 'n')
subdict = {x: bigdict[x] for x in interesting_keys if x in bigdict}
其他回答
解决方案
from operator import itemgetter
from typing import List, Dict, Union
def subdict(d: Union[Dict, List], columns: List[str]) -> Union[Dict, List[Dict]]:
"""Return a dict or list of dicts with subset of
columns from the d argument.
"""
getter = itemgetter(*columns)
if isinstance(d, list):
result = []
for subset in map(getter, d):
record = dict(zip(columns, subset))
result.append(record)
return result
elif isinstance(d, dict):
return dict(zip(columns, getter(d)))
raise ValueError('Unsupported type for `d`')
使用实例
# pure dict
d = dict(a=1, b=2, c=3)
print(subdict(d, ['a', 'c']))
>>> In [5]: {'a': 1, 'c': 3}
# list of dicts
d = [
dict(a=1, b=2, c=3),
dict(a=2, b=4, c=6),
dict(a=4, b=8, c=12),
]
print(subdict(d, ['a', 'c']))
>>> In [5]: [{'a': 1, 'c': 3}, {'a': 2, 'c': 6}, {'a': 4, 'c': 12}]
py3.8+中另一种避免big_dict中缺少键的None值的方法使用walrus:
small_dict = {key: val for key in ('l', 'm', 'n') if (val := big_dict.get(key))}
此答案使用与所选答案类似的字典推导,但不会对缺失项进行省略。
Python 2版本:
{k:v for k, v in bigDict.iteritems() if k in ('l', 'm', 'n')}
Python 3版本:
{k:v for k, v in bigDict.items() if k in ('l', 'm', 'n')}
你可以试试:
dict((k, bigdict[k]) for k in ('l', 'm', 'n'))
... 或Python 3 Python 2.7或更高版本(感谢Fábio Diniz指出它在2.7中也适用):
{k: bigdict[k] for k in ('l', 'm', 'n')}
更新:正如Håvard S指出的那样,我假设你知道键将在字典中-如果你不能做出这样的假设,请参阅他的答案。或者,正如timbo在评论中指出的那样,如果你想要bigdict中缺少的键映射到None,你可以这样做:
{k: bigdict.get(k, None) for k in ('l', 'm', 'n')}
如果你正在使用python3,并且你只想要新字典中的键实际上存在于原始字典中,你可以使用fact来查看对象,实现一些set操作:
{k: bigdict[k] for k in bigdict.keys() & {'l', 'm', 'n'}}
使用地图(halfdanrump的答案)对我来说是最好的,尽管还没有计时……
但是如果你使用一个字典,如果你有一个big_dict:
一定要确保你遍历了要求。这是至关重要的,并且会影响算法的运行时间(大O, theta,你能想到的) 把它写得足够通用,以避免在没有键的情况下出现错误。
例如:
big_dict = {'a':1,'b':2,'c':3,................................................}
req = ['a','c','w']
{k:big_dict.get(k,None) for k in req )
# or
{k:big_dict[k] for k in req if k in big_dict)
请注意,在相反的情况下,req很大,但my_dict很小,您应该通过my_dict进行循环。
一般来说,我们在做一个交集问题的复杂度是O(min(len(dict)) min(len(req)))Python自己的intersection实现考虑了两个集合的大小,所以它看起来是最优的。而且,作为c语言的核心库的一部分,可能比大多数未优化的python语句要快。 因此,我考虑的解决方案是:
dict = {'a':1,'b':2,'c':3,................................................}
req = ['a','c','w',...................]
{k:dic[k] for k in set(req).intersection(dict.keys())}
它将关键操作移到python的c代码中,并适用于所有情况。