這個模組實現了特定目標的容器,以提供Python標準內建容器 dict、list、set、tuple 的替代選擇。
Counter是一個dict子類,主要是用來對你存取的物件的頻率進行計數。
>>> import collections
>>> # 統計字元出現的次數
... collections.Counter('hello world')
Counter({'l': 3, 'o': 2, 'h': 1, 'e': 1, ' ': 1, 'w': 1, 'r': 1, 'd': 1})
>>> # 統計單詞個數
... collections.Counter('hello world hello lucy'.split())
Counter({'hello': 2, 'world': 1, 'lucy': 1})
常用方法:
elements():返回一個迭代器,每個元素重複計算的個數,如果一個元素的計數小於1,就會被忽略
most_common([n]):返回一個列表,提供n個存取頻率最高的元素和計數
subtract([iterable-or-mapping]):從迭代物件中減去元素,輸入輸出可以是0或者負數
update([iterable-or-mapping]):從迭代物件計數元素或者從另一個 對映物件 (或計數器) 新增
>>> c = collections.Counter('hello world hello lucy'.split())
>>> c
Counter({'hello': 2, 'world': 1, 'lucy': 1})
>>> # 獲取指定物件的存取次數,也可以使用get方法
... c['hello']
2
>>> # 檢視元素
... list(c.elements())
['hello', 'hello', 'world', 'lucy']
>>> c1 = collections.Counter('hello world'.split())
>>> c2 = collections.Counter('hello lucy'.split())
>>> c1
Counter({'hello': 1, 'world': 1})
>>> c2
Counter({'hello': 1, 'lucy': 1})
>>> # 追加物件,+或者c1.update(c2)
... c1+c2
Counter({'hello': 2, 'world': 1, 'lucy': 1})
>>> # 減少物件,-或者c1.subtract(c2)
... c1-c2
Counter({'world': 1})
>>> # 清除
... c.clear()
>>> c
Counter()
返回一個新的類似字典的物件。 defaultdict
是內建 dict
類的子類。
class collections.defaultdict([default_factory[, ...]])
>>> d = collections.defaultdict()
>>> d
defaultdict(None, {})
>>> e = collections.defaultdict(str)
>>> e
defaultdict(<class 'str'>, {})
例子
defaultdict的一個典型用法是使用其中一種內建型別(如str、int、list或dict等)作為預設工廠,這些內建型別在沒有引數呼叫時返回空型別。
>>> e = collections.defaultdict(str)
>>> e
defaultdict(<class 'str'>, {})
>>> e['hello']
''
>>> e
defaultdict(<class 'str'>, {'hello': ''})
>>> # 普通字典呼叫不存在的鍵時,報錯
... e1 = {}
>>> e1['hello']
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
KeyError: 'hello'
使用 int
作為 default_factory
>>> fruit = collections.defaultdict(int)
>>> fruit['apple'] = 2
>>> fruit
defaultdict(<class 'int'>, {'apple': 2})
>>> fruit['banana'] # 沒有物件時,返回0
0
>>> fruit
defaultdict(<class 'int'>, {'apple': 2, 'banana': 0})
使用 list
作為 default_factory
>>> s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
>>> d = collections.defaultdict(list)
>>> for k,v in s:
... d[k].append(v)
...
>>> d
defaultdict(<class 'list'>, {'yellow': [1, 3], 'blue': [2, 4], 'red': [1]})
>>> d.items()
dict_items([('yellow', [1, 3]), ('blue', [2, 4]), ('red', [1])])
>>> sorted(d.items())
[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]
使用 dict
作為 default_factory
>>> nums = collections.defaultdict(dict)
>>> nums[1] = {'one':1}
>>> nums
defaultdict(<class 'dict'>, {1: {'one': 1}})
>>> nums[2]
{}
>>> nums
defaultdict(<class 'dict'>, {1: {'one': 1}, 2: {}})
使用 set
作為 default_factory
>>> types = collections.defaultdict(set)
>>> types['手機'].add('華為')
>>> types['手機'].add('小米')
>>> types['顯示器'].add('AOC')
>>> types
defaultdict(<class 'set'>, {'手機': {'華為', '小米'}, '顯示器': {'AOC'}})
Python字典中的鍵的順序是任意的,它們不受新增的順序的控制。
collections.OrderedDict
類提供了保留他們新增順序的字典物件
>>> o = collections.OrderedDict()
>>> o['k1'] = 'v1'
>>> o['k3'] = 'v3'
>>> o['k2'] = 'v2'
>>> o
OrderedDict([('k1', 'v1'), ('k3', 'v3'), ('k2', 'v2')])
如果在已經存在的 key 上新增新的值,將會保留原來的 key 的位置,然後覆蓋 value 值。
>>> o['k1'] = 666
>>> o
OrderedDict([('k1', 666), ('k3', 'v3'), ('k2', 'v2')])
>>> dict(o)
{'k1': 666, 'k3': 'v3', 'k2': 'v2'}
三種定義命名元組的方法:第一個引數是命名元組的構造器(如下的:Person1,Person2,Person3)
>>> P1 = collections.namedtuple('Person1',['name','age','height'])
>>> P2 = collections.namedtuple('Person2','name,age,height')
>>> P3 = collections.namedtuple('Person3','name age height')
範例化命名元組
>>> lucy = P1('lucy',23,180)
>>> lucy
Person1(name='lucy', age=23, height=180)
>>> jack = P2('jack',20,190)
>>> jack
Person2(name='jack', age=20, height=190)
>>> lucy.name # 直接通過 範例名.屬性 來呼叫
'lucy'
>>> lucy.age
23
collections.deque
返回一個新的雙向佇列物件,從左到右初始化(用方法 append()),從 iterable(迭代物件)資料建立。如果 iterable 沒有指定,新佇列為空。
collections.deque
佇列支援執行緒安全,對於從兩端新增(append)或者彈出(pop),複雜度O(1)。
雖然 list
物件也支援類似操作,但是這裡優化了定長操作(pop(0)、insert(0,v))的開銷。
如果 maxlen 沒有指定或者是 None ,deque 可以增長到任意長度。否則,deque 就限定到指定最大長度。一旦限定長度的 deque 滿了,當新項加入時,同樣數量的項就從另一端彈出。
支援的方法:
>>> d = collections.deque(maxlen=10)
>>> d
deque([], maxlen=10)
>>> d.extend('python')
>>> [i.upper() for i in d]
['P', 'Y', 'T', 'H', 'O', 'N']
>>> d.append('e')
>>> d.appendleft('f')
>>> d.appendleft('g')
>>> d.appendleft('h')
>>> d
deque(['h', 'g', 'f', 'p', 'y', 't', 'h', 'o', 'n', 'e'], maxlen=10)
>>> d.appendleft('i')
>>> d
deque(['i', 'h', 'g', 'f', 'p', 'y', 't', 'h', 'o', 'n'], maxlen=10)
>>> d.append('m')
>>> d
deque(['h', 'g', 'f', 'p', 'y', 't', 'h', 'o', 'n', 'm'], maxlen=10)
問題背景是我們有多個字典或者對映,想把它們合併成為一個單獨的對映,有人說可以用update進行合併,這樣做的問題就是新建了一個資料結構以致於當我們對原來的字典進行更改的時候不會同步。如果想建立一個同步的查詢方法,可以使用 ChainMap
可以用來合併兩個或者更多個字典,當查詢的時候,從前往後依次查詢。簡單使用:
>>> d1 = {'apple':1,'banana':2}
>>> d2 = {'orange':2,'apple':3,'pike':1}
>>> combined1 = collections.ChainMap(d1,d2)
>>> combined2 = collections.ChainMap(d2,d1)
>>> combined1
ChainMap({'apple': 1, 'banana': 2}, {'orange': 2, 'apple': 3, 'pike': 1})
>>> combined2
ChainMap({'orange': 2, 'apple': 3, 'pike': 1}, {'apple': 1, 'banana': 2})
>>> for k,v in combined1.items():
... print(k,v)
...
orange 2
apple 1
pike 1
banana 2
>>> for k,v in combined2.items():
... print(k,v)
...
apple 3
banana 2
orange 2
pike 1
有一個注意點就是當對ChainMap進行修改的時候總是隻會對第一個字典進行修改,如果第一個字典不存在該鍵,會新增。
>>> d1 = {'apple':1,'banana':2}
>>> d2 = {'orange':2,'apple':3,'pike':1}
>>> c = collections.ChainMap(d1,d2)
>>> c
ChainMap({'apple': 1, 'banana': 2}, {'orange': 2, 'apple': 3, 'pike': 1})
>>> c['apple']
1
>>> c['apple'] = 2
>>> c
ChainMap({'apple': 2, 'banana': 2}, {'orange': 2, 'apple': 3, 'pike': 1})
>>> c['pike']
1
>>> c['pike'] = 3
>>> c
ChainMap({'apple': 2, 'banana': 2, 'pike': 3}, {'orange': 2, 'apple': 3, 'pike': 1})
從原理上面講,ChainMap 實際上是把放入的字典儲存在一個佇列中,當進行字典的增加刪除等操作只會在第一個字典上進行,當進行查詢的時候會依次查詢,new_child() 方法實質上是在列表的第一個元素前放入一個字典,預設是{},而 parents 是去掉了列表開頭的元素
>>> a = collections.ChainMap()
>>> a['x'] = 1
>>> a
ChainMap({'x': 1})
>>> b = a.new_child()
>>> b
ChainMap({}, {'x': 1})
>>> b['x'] = 2
>>> b
ChainMap({'x': 2}, {'x': 1})
>>> b['y'] = 3
>>> b
ChainMap({'x': 2, 'y': 3}, {'x': 1})
>>> a
ChainMap({'x': 1})
>>> c = a.new_child()
>>> c
ChainMap({}, {'x': 1})
>>> c['x'] = 1
>>> c['y'] = 1
>>> c
ChainMap({'x': 1, 'y': 1}, {'x': 1})
>>> d = c.parents
>>> d
ChainMap({'x': 1})
>>> d is a
False
>>> d == a
True
>>> a = {'x':1,'z':3}
>>> b = {'y':2,'z':4}
>>> c = collections.ChainMap(a,b)
>>> c
ChainMap({'x': 1, 'z': 3}, {'y': 2, 'z': 4})
>>> c.maps
[{'x': 1, 'z': 3}, {'y': 2, 'z': 4}]
>>> c.parents
ChainMap({'y': 2, 'z': 4})
>>> c.parents.maps
[{'y': 2, 'z': 4}]
>>> c.parents.parents
ChainMap({})
>>> c.parents.parents.parents
ChainMap({})