領英(LinkedIn)近日宣佈 Feathr,這是領英為簡化機器學習 (ML) 功能管理和提高開發者生產力而構建的特徵儲存。
特徵儲存是一個用於管理機器學習特徵的資料管理系統,包括特徵工程程式碼和特徵資料。它是一箇中央儲存庫,用於儲存記錄的、設計的和存取許可權控制的特徵,可以在整個團隊的許多不同的 ML 模型中使用。它從各種來源獲取資料,並執行定義的轉換、聚合、驗證和其他操作來建立特徵。特徵儲存庫註冊了可用的特徵,並使它們準備好被 ML 訓練管道和推理服務所檢索和消費。
在領英,有幾十個應用程式使用 Feathr 來定義特徵,計算它們的訓練,在生產中部署它們,並在團隊中分享它們。報告顯示,與以前針對特定應用的特徵管道解決方案相比,有了 Feathr,團隊在模型訓練工作流程中新增新特徵所需的時間大大減少,執行時的效能也有所提高。
領英在公告中表示:「幾年前,我們注意到一個模式:團隊因維護其特徵準備管道的成本增加而負擔過重,這損害了他們在創新和改進其應用程式方面的生產力。需要從許多來源彙集時間敏感的資料,以時間點正確的方式將特徵與訓練標籤連線起來,並將特徵持久化到儲存中以獲得低延遲的線上服務。他們還需要確保以相同的方式為訓練和推理環境準備特徵,以防止訓練服務的偏差。」
準備和管理特徵一直是大規模執行我們的 ML 應用中最耗時的部分之一。
Feathr 作為一個抽象層,為使用者提供了一個用於定義特徵的通用特徵名稱空間,以及一個用於計算、服務和從 ML 工作流中 "按名稱" 定址的通用平臺。Feathr 還帶來了對特徵轉換的高階支援,使使用者能夠在原始資料集的基礎上試驗新特徵。
Feathr 的抽象為特徵建立了生產者和消費者角色。生產者定義特徵並將它們註冊到 Feathr,消費者存取/匯入特徵組到他們的 ML 模型工作流中。
領英團隊正在繼續開發圍繞 Feathr 的生態,提供新的基礎設施和工具,包括為特徵工程啟用 CI/CD。有了它,客戶將能夠建立廣泛共用的 ML 功能的升級版本,然後針對依賴該功能的現有模型進行測試。