重磅｜ Falcon 180B 正式在 Hugging Face Hub 上釋出！

引言

我們很高興地宣佈由 Technology Innovation Institute (TII) 訓練的開源大模型 Falcon 180B 登陸 Hugging Face！ Falcon 180B 為開源大模型樹立了全新的標杆。作為當前最大的開源大模型，有180B 引數並且是在在 3.5 萬億 token 的 TII RefinedWeb 資料集上進行訓練，這也是目前開源模型裡最長的單波段預訓練。

你可以在 Hugging Face Hub 中查閱模型以及其 Space 應用。

模型:

https://hf.co/tiiuae/falcon-180B

https://hf.co/tiiuae/falcon-180B-chat

Space 應用地址:

https://hf.co/spaces/tiiuae/falcon-180b-demo

從表現能力上來看，Falcon 180B 在自然語言任務上的表現十分優秀。它在開源模型排行榜 (預訓練) 上名列前茅，並可與 PaLM-2 等專有模型相差無幾。雖然目前還很難給出明確的排名，但它被認為與 PaLM-2 Large 不相上下，這也使得它成為目前公開的能力最強的 LLM 之一。

我們將在本篇部落格中通過評測結果來探討 Falcon 180B 的優勢所在，並展示如何使用該模型。

Falcon 180B 是什麼？

從架構維度來看，Falcon 180B 是 Falcon 40B 的升級版本，並在其基礎上進行了創新，比如利用 Multi-Query Attention 等來提高模型的可延伸性。可以通過回顧 Falcon 40B 的部落格 Falcon 40B 來了解其架構。Falcon 180B 是使用 Amazon SageMaker 在多達 4096 個 GPU 上同時對 3.5 萬億個 token 進行訓練，總共花費了約 7,000,000 個 GPU 計算時，這意味著 Falcon 180B 的規模是 Llama 2 的 2.5 倍，而訓練所需的計算量是 Llama 2 的 4 倍。

其訓練資料主要來自 RefinedWeb 資料集 (大約佔 85%)，此外，它還在對話、技術論文和一小部分程式碼 (約佔 3%) 等經過整理的混合資料的基礎上進行了訓練。這個預訓練資料集足夠大，即使是 3.5 萬億個標記也只佔不到一個時期 (epoch)。

已釋出的聊天模型在對話和指令資料集上進行了微調，混合了 Open-Platypus、UltraChat 和 Airoboros 資料集。

‼️ 商業用途: Falcon 180b 可用於商業用途，但條件非常嚴格，不包括任何「託管用途」。如果您有興趣將其用於商業用途，我們建議您檢視許可證並諮詢您的法律團隊。

Falcon 180B 的優勢是什麼？

Falcon 180B 是當前最好的開源大模型。在 MMLU上的表現超過了 Llama 2 70B 和 OpenAI 的 GPT-3.5。在 HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC 及 ReCoRD 上與谷歌的 PaLM 2-Large 不相上下。

它在 Hugging Face 開源大模型榜單上以 68.74 的成績被認為是當前評分最高的開放式大模型，評分超過了 Meta 的 LlaMA 2 (67.35)。

Model	Size	Leaderboard score	Commercial use or license	Pretraining length
Falcon	180B	68.74	E-maiL:[email protected] 2020 TW511.COM