京都大學超級計算機備份期間丟失 77TB 資料

2022-01-06 09:00:08

,日本京都大學由於其惠普超級計算機的備份系統出現錯誤,導致約 77TB 的研究資料被刪除。

京都大學目前使用 Hewlett Packard Cray 計算機系統和 DataDirect ExaScaler 儲存系統,這兩個系統被許多研究小組用於各種用途。

該事件發生在 2021 年 12 月 14 日至 16 日,共計 14 個研究小組的 3400 萬份檔案從系統和備份檔案中被抹去。在進行調查以確定損失的影響後,京都大學得出結論,四個受影響研究小組的資料已無法通過備份系統恢復。

超級計算機系統供應商 HPE 發表了一份日文宣告,聲稱對資料丟失「承擔 100% 的責任」。

從 HPE 的宣告可以看到,此次事件發生在更新了超級計算機使用的備份指令碼之後,而此次更新旨在「提高可見性和可讀性」。具體來說就是,備份指令碼包含的 find 命令可用於刪除超過 10 天的紀錄檔檔案,隨著指令碼功能的改進,傳遞給 find 命令的刪除過程的變數名也有所改變,以提高可見性和可讀性。

然而,負責備份這個超級計算機系統的儲存的程式出現了一個缺陷,HPE 補充道:「這個修改後的指令碼的釋出程式缺乏考慮。原指令碼(bash 指令碼)仍在執行期間我們就釋出了新的指令碼(shell 指令碼),因此導致在執行過程中重新載入修改後的 shell 指令碼,從而導致出現未定義的變數,結果,/LARGE0(備份磁碟儲存)中的原始紀錄檔檔案被刪除,但沒刪除儲存在紀錄檔目錄的檔案。」

事件發生後,備份過程已停止,預計 1 月底恢復備份。為防止資料再次丟失,京都大學已棄用備份系統,計劃在 2022 年 1 月進行改進並重新引入新的備份系統。除了完整備份映象之外,還會保留增量備份功能。

展開閱讀全文