技術速覽|Meta Llama 2 下一代開源大型語言模型

2023-07-24 12:01:35

AI 使用大型語言模型(LLM)來理解和生成自然語言。LLM 可以從大量文字中學習並建立有關各種主題的文字,並可以完成比如編寫程式碼、生成歌詞、總結文章等任務。但有些 LLM 相關課程成本高昂且封閉,而現有的開放課程數量十分有限。這就是 Meta 推出新的開源 LLM Llama 2 的原因。
 

Meta Llama 2 旨在與 OpenAI 的 ChatGPT 和 Google Bard 等其他著名語言模型對標,但又具有獨特優勢。在本文中,我們將聊聊 Llama 2 是什麼、它的優勢是什麼、是如何開發的、以及如何開始上手使用。
 

什麼是大型語言模型(LLM)?

大型語言模型(LLM)是一種人工神經網路,可以從大量文字資料中學習並生成各種主題的自然語言文字。LLM 接受的語料庫包含來自不同來源的數十億或數萬億單詞,例如書籍、網站、社交媒體貼文、新聞文章等。LLM 可以執行各種自然語言處理(NLP)任務,例如文字分類、情感分析、問答、機器翻譯、文字摘要、文字生成等。流行的 LLM 的一些例子包括 OpenAI 的 ChatGPT、Google 的 Bard、微軟的 Turing-NLG、IBM 的 Project CodeNet 等。
 

LLM 基於一種稱為自我關注的技術,該技術使他們能夠捕獲文字中的遠端依賴性和上下文資訊。自注意力是使用名為 Transformer 的模組實現的,該模組由多層編碼器-解碼器對組成。每一層都對輸入文字應用自注意力,並生成更精緻和相關的輸出文字。
 

LLM 的規模是通過其引數的數量來衡量的。引數是確定神經網路如何處理輸入併產生輸出的數值,LLM 的引數越多,它就越複雜和強大。而更多的引數也意味著更多的計算資源和能耗。
 

如何開始使用 Llama 2?

如果您有興趣將 Llama 2 用於您自己的專案或實驗,可以從 Meta 網站[1] 下載模型,您需要填寫下載表格並同意 Meta 的隱私政策。您還需要在計算機或裝置上安裝 PyTorch。
 


 

閱讀技術概述和研究論文。這些檔案將為您提供有關 Llama 的架構、訓練、效能和評估的更多資訊。您還將瞭解 LLM 的挑戰和侷限性以及如何解決這些挑戰和侷限性。
 

遵循官方使用指南並加入開放創新社群。這些資源將幫助您以安全、合規、合法地方式使用 Llama 2,並將您和與您有共同興趣和目標的其他使用者和開發人員聯絡起來。
 

Llama 2 的優勢

Llama 2 是 Meta 的下一代開源大語言模型。它是一系列經過預訓練和微調的模型,引數範圍從 70 億到 700 億個。Meta Llama 2 具有兩大優勢,使其從其他開源 LLM 中脫穎而出。
 

Llama 2 可免費用於研究和商業用途

Llama 2 的主要優點之一是它可以免費用於研究和商業用途。與其前身 Llama 擁有非商業許可證並被洩露到 torrent 網站不同,Meta Llama 2 擁有商業許可證,允許任何人將其整合到他們的產品和服務中。這也表示 Llama 2 可用於多種用途,例如構建聊天機器人、生成內容、建立語音助手等。Meta Llama 2 還可以針對特定領域和任務進行客製化和微調,例如醫療保健、教育、金融等。
 

當然 Meta Llama 2 的使用也存在一些限制。例如,每月活躍使用者超過 7 億的潛在被許可人必須向 Meta 請求特別許可才能使用它。此外,Meta Llama 2 使用者必須遵循 Meta 的負責任的使用指南並尊重他人的隱私和權利。
 

Llama 2 擁有一系列不同的模型

Llama 2 的另一個優勢是它提供了一系列具有不同大小和功能的模型。根據使用者的需求和資源,他們可以選擇以下型號:
 


 

  • Llama-7B:最小的模型,擁有 70 億個引數。適用於資源匱乏的裝置和應用程式。

  • Llama-14B:具有 140 億個引數的中型模型。適用於通用應用程式和任務。

  • Llama-28B:具有 280 億個引數的大型模型。適用於高效能應用和任務。

  • Llama-56B:一個非常大的模型,擁有 560 億個引數。適用於需要更多複雜性和多樣性的高階應用程式和任務。

  • Llama-70B:最大的模型,擁有 700 億個引數。適用於需要最高質量和效能的最先進的應用和任務。
     

所有這些模型都基於 2 萬億個 token 的線上資料進行了預訓練,並且具有 4,096 個 token 的上下文視窗。此外,Meta 還提供了一個名為 Llama-2-chat 的微調模型,該模型針對對談應用程式進行優化。Llama-2-chat 經過超過 100 萬條人工註釋的訓練,可以生成流暢且相對準確的響應。
 

Llama 2 是如何開發的?

Llama 2 由 Meta(前為Facebook)的研究部門 Meta AI 開發。Meta AI 致力於通過開放創新和共同作業推進人工智慧領域的發展。Meta AI 擁有世界一流的研究人員和工程師團隊,他們致力於人工智慧的各個方面,如計算機視覺、自然語言處理、語音識別等。
 

Llama 2 建立在 Meta 之前的開源大型語言模型 Llama 之上,Llama 於今年 2 月釋出。Llama 使用 Meta 的 PyTorch 框架在公開可用的線上資料來源上進行了預訓練。然而,Llama 擁有非商業許可證,僅適用於具有一定資格的學者。很快 Llama 就被洩露到網上並在人工智慧社群廣泛傳播。許多愛好者和開發人員使用 Llama 為各種目的建立自己的微調模型,例如用於聊天機器人的 Alpaca、用於程式碼生成的 Camel、用於文字摘要的 Vicuna 等。
 

因此 Meta 決定採用這種開放式創新方法,並行布了帶有商業許可證的 Llama 2,允許任何人將其用於研究和商業目的。Llama 2 使用 2 萬億個token線上資料進行預訓練,是 Llama 的兩倍。Meta Llama 2 還具有更豐富的上下文視窗,包含 4,096 個標記,是 Llama 上下文視窗大小的兩倍。
 

Meta Llama 2 對超過 100 萬條人工註釋進行了微調,這些註釋是從各種來源收集的,例如公開可用的指令資料集和 Meta 自己的眾包平臺。經過微調的模型 Llama-2-chat 針對對話應用程式進行了優化,可以生成流暢且更為準確的響應。
 

關於 Llama 2 的高頻問題

Q:Llama 和 Llama 2 有什麼區別?

A:Llama 是 Meta 開源大語言模型的第一個版本,於今年2月釋出。Llama 使用 1 萬億個 token 的線上資料進行了預訓練,並且有一個包含 2,048 個 token 的上下文視窗。Meta Llama 2 是 Meta 的下一代開源大語言模型,於今年 7 月釋出。Meta Llama 2 使用 2 萬億個 token 線上資料進行了預訓練,上下文視窗包含 4,096 個 token。
 

Q:如何針對我自己的領域或任務微調 Llama 2?

A:您可以使用 Meta 的 PyTorch 框架並遵循技術概述中的說明,針對您自己的領域或任務微調 Meta Llama 2。您將需要擁有與您的領域或任務相關的自己的文字資料集。
 

Q:Llama 2 面臨哪些挑戰和侷限性?

A:Meta Llama 2 這樣的 LLM 依舊面臨一些挑戰和限制。它們包括資料質量和偏見、計算成本和環境影響以及道德和社會影響。這些可能會影響LLM生成的文字及其在社會中使用的方式。
 

Q:如何以合法、合規的方式使用 Llama 2?

A:要以合法併合規的方式使用 Meta Llama 2(Meta 的開源大語言模型),您應該遵循 Meta 的官方使用指南。它提供了在您的產品中使用 LLM 的一些原則和最佳實踐。其中包括尊重人的尊嚴和權利、透明和負責以及促進多樣性和包容性。
 

結 論

Llama 2 是 Meta 的下一代開源大語言模型。它是一系列經過預訓練和微調的模型,引數範圍從 70 億到 700 億個。Meta Llama 2 可免費用於研究和商業用途,擁有一系列不同大小和功能的模型,並且在許多基準測試中優於其他開源 LLM。
 

Meta Llama 2 是一款功能強大且多功能的工具,可以幫助您建立令人驚歎的自然語言應用程式和體驗。無論您是想構建聊天機器人、生成內容、建立語音助手還是其他任何東西,Llama 2 都可以幫助實現。感興趣的夥伴不妨上手試試。
 

參考連結
原文:https://www.cloudbooklet.com/meta-llama-2-open-source-llm/
[1]. https://ai.meta.com/resources/models-and-libraries/llama-downloads/