一次Python本地cache不當使用導致的記憶體洩露

2023-08-30 06:00:53

背景

近期一個大版本上線後,Python編寫的api主服務使用記憶體有較明顯上升,服務重啟後數小時就會觸發機器的90%記憶體佔用告警,分析後發現了本地cache不當使用導致的一個記憶體洩露問題,這裡記錄一下分析過程。

問題分析

LocalCache實現分析

該cache大概實現程式碼如下:

class LocalCache():
    notFound = object() # 定義cache未命中時返回的唯一物件
    # list dict等本身不支援弱參照,但其子類支援,這裡包裝下
    class Dict(dict):
        def __del__(self):
            pass

    def __init__(self, maxlen=10): # maxlen指定最多快取的物件個數
        self.weak = weakref.WeakValueDictionary() # 儲存快取物件弱參照的dict
        self.strong = collections.deque(maxlen=maxlen) # 儲存快取物件強參照的deque

    # 從快取dict中查詢對應key的物件,若已過期或不存在則返回notFound
    def get_ex(self, key):
        value = self.weak.get(key, self.notFound)
        if value is not self.notFound:
            expire = value['expire']
            if self.nowTime() > expire:
                return self.notFound
            else:
                return value['result']
        return self.notFound

    # 設定kv到快取dict中,並設定其過期時間
    def set_ex(self, key, value, expire):
        self.weak[key] = strongRef = LocalCache.Dict({'result': value, 'expire': self.nowTime()+expire})
        self.strong.append(strongRef)

如上述程式碼,該LocalCache核心在於一個儲存弱參照的weakref.WeakValueDictionary物件與儲存強參照的deque物件(Python中弱參照與強參照介紹可以參見這篇文章--Python中的弱參照與基礎型別支援情況探究 ),LocalCache範例化時可以指定最大快取的物件個數。使用set_ex方法可以設定新的快取kv,get_ex則獲取指定key的快取物件,如果key不存在或者已過期則返回notFound。
該LocalCache通過deque在達到maxlen時按先進先出的順序移除佇列元素,而一旦物件的所有強參照被移除後,WeakValueDictionary的特性則保證了對應物件的弱參照也會直接從dict中被移除出去,如此即實現了一個簡單的支援過期時間和最大快取物件數量限制的本地cache。

LocalCache使用佔用記憶體的錯誤評估

按照上面的LocalCache原則,理論上只要設定合理的過期時間與maxlen值應該可以保證其合理記憶體的合理使用,而這次新版本釋出新增了類似如下兩個個LocalCache:

id_local_cache0 = LocalCache(500000)
id_local_cache1 = LocalCache(500000)
id_local_cache0.set_ex('user_id_012345678901', 'display_id_ABCDEFGH', 1800)
id_local_cache1.set_ex('display_id_ABCDEFGH', 'user_id_012345678901', 1800)

如上定義了兩個50w大小的cache,其快取的是業務內部使用的user_id到使用者app上可見的display_id的對映關係,該對映關係在使用者建立時即生成固定不變,可以設定較長期時間,如果同時有效的物件數超過的maxlen,這個LocalCache直接就等價於一個LRU了,物件釋放可以完全依賴deque的先進先出淘汰機制。
在最開始評估其佔用記憶體時考慮了以下因素:

  1. 單個k、v對 user_id最多20位元組,display_id最多8位元組,加上要存入的過期時間float欄位8位元組,總大小20+8+8=36,加上一些額外花銷最多100位元組
  2. 最大50w限制記憶體佔用: 500000 * 100/1024 = 47.6MB
  3. 線上api服務為uWSGI框架提供的多程序執行方式,單機4個worker程序,總佔用記憶體: 47.6 * 4 = 190MB
  4. 兩個LcoalCache佔用記憶體: 190MB * 2 = 380MB

按照這個計算一臺主機即便每個程序都快取滿了50w物件,也就增加不到400MB記憶體佔用,何況按照估算同時處於有效期內的快取物件應該遠小於50w,所以剩餘記憶體應當完全是綽綽有餘的,然而這個評估值其實遠小於實際值。

LocalCache佔用記憶體的正確評估

線上出現記憶體問題後,嘗試使用tracemalloc分析了線上服務的記憶體分配情況,發現很多記憶體都集中於LocalCache這塊,於是結合實際重新評估這個記憶體佔用,發現了以下問題:

  1. str與float的記憶體佔用評估錯誤,即便str本身len只有10個字元,其佔用記憶體其實是遠大於10的,而float並不是佔用8位元組而是24位元組,如下程式碼可驗證:
In [20]: len('0123456789')
Out[20]: 10
In [21]: sys.getsizeof('0123456789')
Out[21]: 59
In [23]: sys.getsizeof(time.time())
Out[23]: 24
  1. 即便是一個空dict其佔用記憶體也有64位元組,而如果存入kv後則更是急速膨脹為至少232:
In [24]: sys.getsizeof({})
Out[24]: 64
In [26]: sys.getsizeof({'result': {'user_id_012345678901': 'display_id_ABCDEFGH'}, 'expire': time.time()})
Out[26]: 232
  1. 無論過期時間設定長短,由於存入該cache的物件資源回收完全是依賴於deque對其存入強參照的移除進行--即便物件按照時間已經過期了,但是隻要deque中還存有該物件,物件就不會被回收--所以最終cache中快取的物件一定會達到設定的maxlen,佔用其理論上可佔用的最大記憶體。

綜合以上幾點,雖然開始設定的過期時間較短,LocalCache中同時有效的物件數遠小於50w,但最終LocalCache還是會存滿50w的物件,同時實測LocalCache中存入一個物件的平均記憶體大小在700~800位元組,這樣一評估,最終這兩個cache單主機上需要佔用的最大且肯定會達到的記憶體大小變成了: 700 * 500000 * 4 * 2 / 1024/1024 = 2.67GB,是之前錯誤評估值的6倍==!這樣一算主機上的記憶體就不夠用了。

後續處理

結合實際正確評估記憶體佔用後,總結以下LocalCache使用原則:

  1. maxlen的設定需根據實際資料情況設定為合理值--如最大可能同時有效物件數的1.1 ~ 2.0倍,防止大量過期物件長期佔用記憶體而不釋放的情況,check後確認線上程式碼就有好幾處maxlen大於其最大有效物件數5~10倍的LocalCache使用。
  2. 拆分大物件與小物件同時使用的cache,因為佔用幾百位元組的小物件的maxlen設定為1千、1萬甚至10w都合理,但是對於佔用幾MB設定十幾MB的物件,maxlen設定>100就已經可能佔用掉大量記憶體了。

針對api服務使用的多處LocalCache按照以上原則進行優化後,其佔用的總記憶體量下降了超過3GB。

總結

在初版評估cache記憶體佔用時,用了想當然評估法,而沒有實測每個型別、物件的實際佔用大小,導致評估值遠小於實際值。
對於LocalCache的物件回收原理未深度理解,一直想當然認為只要過了有效時間其物件即會被回收掉,沒有認識到其回收完全依賴於deque。
又一次想當然造成的問題。

轉載請註明出處,原文地址: https://www.cnblogs.com/AcAc-t/p/python_local_cache_usage.html

參考

https://docs.python.org/3.8/library/tracemalloc.html
https://www.cnblogs.com/AcAc-t/p/python_weakref_study.html
https://docs.python.org/3.8/library/collections.html
https://www.cnblogs.com/AcAc-t/p/python_local_cache_usage.html
https://docs.python.org/3.8/library/sys.html?highlight=getsizeof