近期一個大版本上線後,Python編寫的api主服務使用記憶體有較明顯上升,服務重啟後數小時就會觸發機器的90%記憶體佔用告警,分析後發現了本地cache不當使用導致的一個記憶體洩露問題,這裡記錄一下分析過程。
該cache大概實現程式碼如下:
class LocalCache():
notFound = object() # 定義cache未命中時返回的唯一物件
# list dict等本身不支援弱參照,但其子類支援,這裡包裝下
class Dict(dict):
def __del__(self):
pass
def __init__(self, maxlen=10): # maxlen指定最多快取的物件個數
self.weak = weakref.WeakValueDictionary() # 儲存快取物件弱參照的dict
self.strong = collections.deque(maxlen=maxlen) # 儲存快取物件強參照的deque
# 從快取dict中查詢對應key的物件,若已過期或不存在則返回notFound
def get_ex(self, key):
value = self.weak.get(key, self.notFound)
if value is not self.notFound:
expire = value['expire']
if self.nowTime() > expire:
return self.notFound
else:
return value['result']
return self.notFound
# 設定kv到快取dict中,並設定其過期時間
def set_ex(self, key, value, expire):
self.weak[key] = strongRef = LocalCache.Dict({'result': value, 'expire': self.nowTime()+expire})
self.strong.append(strongRef)
如上述程式碼,該LocalCache核心在於一個儲存弱參照的weakref.WeakValueDictionary物件與儲存強參照的deque物件(Python中弱參照與強參照介紹可以參見這篇文章--Python中的弱參照與基礎型別支援情況探究 ),LocalCache範例化時可以指定最大快取的物件個數。使用set_ex方法可以設定新的快取kv,get_ex則獲取指定key的快取物件,如果key不存在或者已過期則返回notFound。
該LocalCache通過deque在達到maxlen時按先進先出的順序移除佇列元素,而一旦物件的所有強參照被移除後,WeakValueDictionary的特性則保證了對應物件的弱參照也會直接從dict中被移除出去,如此即實現了一個簡單的支援過期時間和最大快取物件數量限制的本地cache。
按照上面的LocalCache原則,理論上只要設定合理的過期時間與maxlen值應該可以保證其合理記憶體的合理使用,而這次新版本釋出新增了類似如下兩個個LocalCache:
id_local_cache0 = LocalCache(500000)
id_local_cache1 = LocalCache(500000)
id_local_cache0.set_ex('user_id_012345678901', 'display_id_ABCDEFGH', 1800)
id_local_cache1.set_ex('display_id_ABCDEFGH', 'user_id_012345678901', 1800)
如上定義了兩個50w大小的cache,其快取的是業務內部使用的user_id到使用者app上可見的display_id的對映關係,該對映關係在使用者建立時即生成固定不變,可以設定較長期時間,如果同時有效的物件數超過的maxlen,這個LocalCache直接就等價於一個LRU了,物件釋放可以完全依賴deque的先進先出淘汰機制。
在最開始評估其佔用記憶體時考慮了以下因素:
按照這個計算一臺主機即便每個程序都快取滿了50w物件,也就增加不到400MB記憶體佔用,何況按照估算同時處於有效期內的快取物件應該遠小於50w,所以剩餘記憶體應當完全是綽綽有餘的,然而這個評估值其實遠小於實際值。
線上出現記憶體問題後,嘗試使用tracemalloc分析了線上服務的記憶體分配情況,發現很多記憶體都集中於LocalCache這塊,於是結合實際重新評估這個記憶體佔用,發現了以下問題:
In [20]: len('0123456789')
Out[20]: 10
In [21]: sys.getsizeof('0123456789')
Out[21]: 59
In [23]: sys.getsizeof(time.time())
Out[23]: 24
In [24]: sys.getsizeof({})
Out[24]: 64
In [26]: sys.getsizeof({'result': {'user_id_012345678901': 'display_id_ABCDEFGH'}, 'expire': time.time()})
Out[26]: 232
綜合以上幾點,雖然開始設定的過期時間較短,LocalCache中同時有效的物件數遠小於50w,但最終LocalCache還是會存滿50w的物件,同時實測LocalCache中存入一個物件的平均記憶體大小在700~800位元組,這樣一評估,最終這兩個cache單主機上需要佔用的最大且肯定會達到的記憶體大小變成了: 700 * 500000 * 4 * 2 / 1024/1024 = 2.67GB,是之前錯誤評估值的6倍==!這樣一算主機上的記憶體就不夠用了。
結合實際正確評估記憶體佔用後,總結以下LocalCache使用原則:
針對api服務使用的多處LocalCache按照以上原則進行優化後,其佔用的總記憶體量下降了超過3GB。
在初版評估cache記憶體佔用時,用了想當然評估法,而沒有實測每個型別、物件的實際佔用大小,導致評估值遠小於實際值。
對於LocalCache的物件回收原理未深度理解,一直想當然認為只要過了有效時間其物件即會被回收掉,沒有認識到其回收完全依賴於deque。
又一次想當然造成的問題。
轉載請註明出處,原文地址: https://www.cnblogs.com/AcAc-t/p/python_local_cache_usage.html
https://docs.python.org/3.8/library/tracemalloc.html
https://www.cnblogs.com/AcAc-t/p/python_weakref_study.html
https://docs.python.org/3.8/library/collections.html
https://www.cnblogs.com/AcAc-t/p/python_local_cache_usage.html
https://docs.python.org/3.8/library/sys.html?highlight=getsizeof