用 Hugging Face 推理端點部署 LLM

2023-07-22 06:00:50

開源的 LLM,如 Falcon(Open-)LLaMAX-GenStarCoderRedPajama,近幾個月來取得了長足的進展,能夠在某些用例中與閉源模型如 ChatGPT 或 GPT4 競爭。然而,有效且優化地部署這些模型仍然是一個挑戰。

在這篇部落格文章中,我們將向你展示如何將開源 LLM 部署到 Hugging Face Inference Endpoints,這是我們的託管 SaaS 解決方案,可以輕鬆部署模型。此外,我們還將教你如何流式傳輸響應並測試我們端點的效能。那麼,讓我們開始吧!

  1. 怎樣部署 Falcon 40B instruct 模型
  2. 測試 LLM 端點
  3. 用 javascript 和 python 進行流響應傳輸

在我們開始之前,讓我們回顧一下關於推理端點的知識。

什麼是 Hugging Face 推理端點

Hugging Face 推理端點 提供了一種簡單、安全的方式來部署用於生產的機器學習模型。推理端點使開發人員和資料科學家都能夠建立 AI 應用程式而無需管理基礎設施: 簡化部署過程為幾次點選,包括使用自動擴充套件處理大量請求,通過縮減到零來降低基礎設施成本,並提供高階安全性。

以下是 LLM 部署的一些最重要的特性:

  1. 簡單部署: 只需幾次點選即可將模型部署為生產就緒的 API,無需處理基礎設施或 MLOps。
  2. 成本效益: 利用自動縮減到零的能力,通過在端點未使用時縮減基礎設施來降低成本,同時根據端點的正常執行時間付費,確保成本效益。
  3. 企業安全性: 在僅通過直接 VPC 連線可存取的安全離線端點中部署模型,由 SOC2 型別 2 認證支援,並提供 BAA 和 GDPR 資料處理協定,以增強資料安全性和合規性。
  4. LLM 優化: 針對 LLM 進行了優化,通過自定義 transformers 程式碼和 Flash Attention 來實現高吞吐量和低延遲。
  5. 全面的任務支援: 開箱即用地支援