論文閱讀:基於強化學習的資料中心冷卻控制

2022-10-08 18:00:49

全文主旨【省時間快讀】

寫在前面:

  • 本次全文快讀,使用了 Dmitry Berenson 的讀論文方法(感覺很實用,所以特意寫了一篇 部落格)。
  • 論文標題:Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning,用深度強化學習 做資料中心冷卻 的優化。發表於 2019 年,已經被引 116 次。
  • 不清楚這篇 2019 年的論文 是否算 RL 做此類優化的早期工作;
    • Google Scholar 上,最早的相關工作是在 2017 年,18 年開始變多;
    • 除了資料中心冷卻之外,建築的 HVAC(Heating Ventilation and Air Conditioning,供暖通風與空氣調節)也比較多。
  • 最後,這篇部落格是我斷斷續續寫了將近兩個月才發出來的,中間跑去實習、又跑去保研、學運籌學、幹各種事情,一直擱置到現在。
    • 前幾天有在讀《Lessons from AlphaZero》,並且參加一些組會,對自動化有了一些新的認識。現在看來,下文的部落格內容,可能有些太激進、過於偏頗了。
    • 對於我的個人觀點,讀者隨便看看就好。RL 是否純粹,可能沒那麼重要,重要的是我們把問題解決了,這就足夠了。

layer 1:知道 main idea

  1. 【問題定義】作者試圖解決 / 研究什麼型別的問題 / 現象?
    1. 我們希望幫助資料中心節能。資料中心的能耗主要分為三部分:① 電腦跑程式的能耗,② 冷卻電腦的能耗,③ 房間照明、監控等其他 misc 事情(一般不考慮)。
    2. 然而,我們不能影響資料中心的任務排程(比如 A 機器已經很忙了,再幹活就過熱了,所以把任務強行塞給 B 機器),只能影響冷卻系統(比如空調、冷卻水等),控制冷卻系統的功率、運作方式等。
    3. 我們的目標是:合理控制冷卻系統,使得 ① 機器不過熱 ② 能耗盡量小。
  2. 【問題重要性】讀者為什麼要關心這個問題 / 現象?
    1. 因為資料中心耗能很多,冷卻耗能佔一大部分,所以,如果能節省 15% 的冷卻耗能,就已經是很大一筆。
  3. 【novelty】proposed method 與 previous works 有什麼不同?
    1. previous works:一般採用 two-step 的形式,先(基於物理方程、專家經驗等)建 DC 的模型,再基於進行控制。
    2. proposed method: end-to-end、RL-based method(雖然感覺 proposed method 不算典型 end-to-end,並且也不能算是典型 RL)。
  4. 【為何勝出】比 previous works 好在哪裡?(比如 效能更好 / 更 general / 更快)
    1. general:用 neural net 代替一些模組,可以省去很多物理建模的複雜度吧。(但是隨之而來的調參複雜度,不知道怎麼樣)
    2. 效能:貌似在某些情況下,效能>baseline(一個魔改的 two-step method)。
  5. 【論文在文獻樹上的位置】這是什麼型別的方法?(通常有幾種方法可以解決相同的問題)
    1. 文中有提到傳統的 two-step 解決方案,先物理建模資料中心,然後再 somehow 給出控制訊號。
    2. 月出個人猜測,還會有一些 用 ai 取代部分模組 的方案,比如神經網路建模資料中心、啟發式演演算法跑出控制訊號。
    3. 這篇論文提出了全部採用 ai 技術的方案,並且採用了類似 RL 的框架。
  6. 【實際應用】這項工作有哪些應用?
    1. 用來給出更好的控制,或者控制參考建議。
    2. 不過在這方面有個隱憂:如果 ai 的可靠性 / 可解釋性不足夠,萬一對於某些狀態,給出了很離譜的控制。
    3. 感覺我們可以新增一個安全性模組,用來攔截住離譜的控制訊號,或者做一些 model ensemble,進行一個去除最大最小的 voting。
    4. 不過,那天導師說 我們專案採用人工閉環,也就是程式僅提供一個控制的參考值,這是因為自動控制太貴了,人工控制便宜一點