我們很高興地宣佈由 Technology Innovation Institute (TII) 訓練的開源大模型 Falcon 180B 登陸 Hugging Face! Falcon 180B 為開源大模型樹立了全新的標杆。作為當前最大的開源大模型,有180B 引數並且是在在 3.5 萬億 token 的 TII RefinedWeb 資料集上進行訓練,這也是目前開源模型裡最長的單波段預訓練。
你可以在 Hugging Face Hub 中查閱模型以及其 Space 應用。
模型:
https://hf.co/tiiuae/falcon-180B
https://hf.co/tiiuae/falcon-180B-chat
Space 應用地址:
https://hf.co/spaces/tiiuae/falcon-180b-demo
從表現能力上來看,Falcon 180B 在自然語言任務上的表現十分優秀。它在開源模型排行榜 (預訓練) 上名列前茅,並可與 PaLM-2 等專有模型相差無幾。雖然目前還很難給出明確的排名,但它被認為與 PaLM-2 Large 不相上下,這也使得它成為目前公開的能力最強的 LLM 之一。
我們將在本篇部落格中通過評測結果來探討 Falcon 180B 的優勢所在,並展示如何使用該模型。
從架構維度來看,Falcon 180B 是 Falcon 40B 的升級版本,並在其基礎上進行了創新,比如利用 Multi-Query Attention 等來提高模型的可延伸性。可以通過回顧 Falcon 40B 的部落格 Falcon 40B 來了解其架構。Falcon 180B 是使用 Amazon SageMaker 在多達 4096 個 GPU 上同時對 3.5 萬億個 token 進行訓練,總共花費了約 7,000,000 個 GPU 計算時,這意味著 Falcon 180B 的規模是 Llama 2 的 2.5 倍,而訓練所需的計算量是 Llama 2 的 4 倍。
其訓練資料主要來自 RefinedWeb 資料集 (大約佔 85%),此外,它還在對話、技術論文和一小部分程式碼 (約佔 3%) 等經過整理的混合資料的基礎上進行了訓練。這個預訓練資料集足夠大,即使是 3.5 萬億個標記也只佔不到一個時期 (epoch)。
已釋出的 聊天模型 在對話和指令資料集上進行了微調,混合了 Open-Platypus、UltraChat 和 Airoboros 資料集。
‼️ 商業用途: Falcon 180b 可用於商業用途,但條件非常嚴格,不包括任何「託管用途」。如果您有興趣將其用於商業用途,我們建議您檢視 許可證 並諮詢您的法律團隊。
Falcon 180B 是當前最好的開源大模型。在 MMLU上 的表現超過了 Llama 2 70B 和 OpenAI 的 GPT-3.5。在 HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC 及 ReCoRD 上與谷歌的 PaLM 2-Large 不相上下。
它在 Hugging Face 開源大模型榜單上以 68.74 的成績被認為是當前評分最高的開放式大模型,評分超過了 Meta 的 LlaMA 2 (67.35)。
Model | Size | Leaderboard score | Commercial use or license | Pretraining length |
---|---|---|---|---|
Falcon | 180B | 68.74 |
|