國內「誰」能實現chatgpt,短期窮出的類ChatGPT簡評(演演算法側角度為主),以及對MOSS、ChatYuan給出簡評,一文帶你深入瞭解宏觀技術路線。

2023-02-24 15:00:29

1.ChatGPT簡介【核心技術、技術侷限】

ChatGPT(全名:Chat Generative Pre-trained Transformer),美國OpenAI 研發的聊天機器人程式 ,於2022年11月30日釋出 。ChatGPT是人工智慧技術驅動的自然語言處理工具,它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視訊指令碼、文案、翻譯、程式碼,寫論文 等任務。

1.1 核心競爭力

ChatGPT受到關注的重要原因是引入新技術RLHF (Reinforcement Learning with Human Feedback,即基於人類反饋的強化學習)。RLHF 解決了生成模型的一個核心問題,即如何讓人工智慧模型的產出和人類的常識、認知、需求、價值觀保持一致。ChatGPT是AIGC(AI- Generated Content,人工智慧生成內容)技術進展的成果。**該模型能夠促進利用人工智慧進行內容創作、提升內容生產效率與豐富度。 **

1.2 技術侷限性

ChatGPT 的使用上還有侷限性,模型仍有優化空間。ChatGPT模型的能力上限是由獎勵模型決定,該模型需要巨量的語料來擬合真實世界,對標註員的工作量以及綜合素質要求較高。ChatGPT可能會出現創造不存在的知識,或者主觀猜測提問者的意圖等問題,模型的優化將是一個持續的過程。若AI技術迭代不及預期,NLP模型優化受限,則相關產業發展進度會受到影響。此外,ChatGPT盈利模式尚處於探索階段,後續商業化落地進展有待觀察。

2.國內外ChatGPT發展情況

2.1 國內外ChatGPT技術佈局



上述圖為參照圖片,如有侵權請聯絡。

2.2 目前已知產品

  • 文心一言(英文名:ERNIE Bot)是百度基於文心大模型技術推出的生成式對話產品,將於2023年3月完成內測,面向公眾開放

  • Bard是谷歌在一個大型語言模型基礎上,推出的聊天機器人

  • MOSS是復旦大學自然語言處理實驗室釋出的對話式大型語言模型。

2023年2月20日,解放日報·上觀新聞記者從復旦大學自然語言處理實驗室獲悉,MOSS已由邱錫鵬教授團隊釋出,邀公眾參與內測。2月21日,該平臺釋出公告,感謝大家的關注,同時也指出,MOSS還是一個非常不成熟的模型,距離ChatGPT還有很長的路需要走

  • ChatYuan:元語智慧團隊

首箇中文版 ChatGPT——ChatYuan 即在人工智慧社群引發了廣泛的討論。如今 ChatYuan 又迎來了升級版本,支援中英雙語互動、多次編輯、上下文關聯互動、模擬情景設定等多種新功能。

國產自研功能對話大模型元語 ChatYuan 於 2022 年 12 月釋出測試版本後,引起社會各界人士的廣泛討論,並且收到了使用者的大量反饋和寶貴建議。元語智慧團隊已於近日對元語 ChatYuan 進行了模型效果優化和版本功能升級,現已開放內測。

3.簡評ChatGPT技術路線以及目前公測產品

對於ChatGPT實現首先從要素上介紹

3.1 ChatGPT技術實現要素

簡單認為以下三點比較重要:

  1. 充足的資料集(已標註)
  2. 具備大模型能力(公司、實驗室)
  3. 豐富的算力機器
  4. 演演算法技術能力

首先針對資料集問題:
先天優勢的是百度、位元組跳動等公司;其次才是各大公司研究室。細化一下就是百度、位元組跳動有高質量資料集(資訊量足,結構化等優勢)簡化標註資料獲取環節,有利於模型訓練得到高質量模型。

其次具備大模型能力(公司、實驗室)
在NLP領域AI大模型能力也是有所共見,開創新紀元。所以擁有自己的大模型是至關重要的(千億引數量)

再者豐富的算力機器
模型訓練依賴算力,沒有充足AI加速卡,時不待我啊。

最後也就是具備先進的演演算法技術能力
這個是至關重要的,1.針對資料集其他公司可以通過爬蟲方式拿到部分原生資料再加工,也算解決資料集問題吧。2.針對大模型因為目前業界開源了很多NLP各個領域的大模型任何一個人都可以獲取某個領域的多工預訓練大模型。3.算力嘛,花錢可以解決,只要你足夠富有。但是迴歸到先進的演演算法技術能力這裡就是要出差距了,做一個「ChatGPT」外殼產品難度不大,但是要做一個真正ChatGPT難度很大。

3.2 ChatGPT技術宏觀實現路徑

下面從宏觀實現路徑進行簡單講解

3.2.1.堆砌式(封閉)模型:級別一

框架大致如下:

  • ChatGPT(智慧問答)
    • 任務分類大模型分類(把問題分到到對應模型去處理)
      • 資訊抽取大模型
      • 推薦系統大模型
      • 生成程式碼大模型
      • 智慧問答大模型(單輪多輪對話)
      • 等等

主要以語意搜尋推薦系統技術下給到你索引答案,只是包裝了一個前端展示(對話形式)

3.2.2.堆砌式(開放)模型:級別二

  • ChatGPT(智慧問答)
    • 任務分類大模型分類(把問題分到到對應模型去處理)
      • 資訊抽取大模型
      • 推薦系統大模型
      • 生成程式碼大模型
      • 開放式智慧問答大模型(單輪多輪對話)
      • 等等

參照:Datafun圖片

開放域對話技術屬於人機對話的一種。除了開放域對話,人機對話還包括面向任務的對話和問答對話。
面向任務的對話類似於訂票、查天氣等,這也是大家用得比較多的一種。

  • 問答就是有明確的需求,使用者直接詢問系統找答案。
  • 開放域對話與前面兩者不同,前兩者使用者要麼有明確的需求、要麼有明確的場景。但開放域對話是在一個很開放的場景中進行擬人的對話,可以進行任意的對話。同時,要求對話系統有人設、有人格和情感。

可以簡單理解為AI模型更智慧,演演算法技術更厲害了。

3.2.3.基於RLHF的AIGC的堆砌式模型:級別三

簡介:
RLHF (Reinforcement Learning with Human Feedback,即基於人類反饋的強化學習) RLHF 解決了生成模型的一個核心問題,即如何讓人工智慧模型的產出和人類的常識、認知、需求、價值觀保持一致。
AIGC(AI- Generated Content,人工智慧生成內容)技術進展的成果。該模型能夠促進利用人工智慧進行內容創作、提升內容生產效率與豐富度。

  • ChatGPT(智慧問答)
    • 任務分類大模型分類(把問題分到到對應模型去處理)
    • RLHF多智慧體強化學習
      • 資訊抽取大模型
      • 推薦系統大模型
      • 生成程式碼大模型
      • 開放式智慧問答大模型(單輪多輪對話)
      • 等等

講一下級別三和級別二的區別:RLHF多智慧體強化學習
級別二的各個大模型之前是獨立的,級別三通過強化學習演演算法把各個模型耦合起來,同時模型的產出和人類的常識、認知、需求、價值觀的模型。控制產出好壞也就是獎勵模型決定,答案滿意給出正向反饋,反之給出負分。這個設計難度也很大。

總結一下就是技術上升級了,模型更加智慧輸出結果更佳貼近使用者。具體使用者側感受就是你可以「調教chatgpt」,產生個性化客製化。當然這種和搜尋推薦系統給到的個性化也是不一樣的。

3.2.4.基於RLHF的AIGC的多工完美模型模型:終極形態

  • ChatGPT(智慧問答)
    • 基於RLHF強化學習的多工完美模型模型

簡單來說就是所有任務一個模型都能解決,下游任務相容性完美! 期待一手!

3.2.5 小結

從上面四個級別可以看出,難度一次上升。個人認為openAI的chatgpt應該是第三種方案,因為終極形態相比級別三來說,難度難以想象(一個模型完成所有任務,只能說太強了)。換一個角度,我們作為使用者從產品側看是很難感知出兩者區別,從目前的業界開源模型情況來看 方案三更加靠譜,落地也會更快,但技術難度還是很大的!

下面通過分析一下國內目前公測的MOSS和ChatYuan

4.對MOSS、ChatYuan給出簡評

4.1 ChatYuan

它具備的功能:

  • 1.【支援多次編輯】
    第一次輸入後,可以進一步提出要求,修正生成內容,快速更新所需內容。
  • 2.【支援上下文關聯互動】
    支援多輪次互動,提升上下文關聯理解能力,更加自然的人機互動模式。
  • 3.【模擬情景設定】
    支援模擬情景設定,如模擬對話、模擬小說背景、模擬人物性格。
  • 4.【基礎程式碼 / 表格生成】
    初步實現生成程式碼功能,程式碼結構相對完整,部分程式碼邏輯持續優化中,表格生成能力初步實現。
  • 5.【支援中英文互動】
    支援中英切換互動,如輸入中文可以回覆英文內容
  • 6.【基礎生成任務效果提升】
    內容生成效果顯著提升,寫公文、寫故事、寫論文提綱、寫特定主題含關鍵詞的詩歌等,效果較之前有比較明顯的提升。




官方開源:https://github.com/clue-ai/ChatYuan
碼源:https://colab.research.google.com/drive/1lEyFhEfoc-5Z5xqpEKkZt_iMaojH1MP_?usp=sharing

在這個notebook中我們將使用transformers庫結合GPU訓練ChatYuan模型,使用的是pCLUE多工提示學習資料集。

首先從這個開源專案中,使用的資料集是pCLUE: Large-scale Prompt-based Dataset for Multi-task and Zero-shot Learning in Chinese

pCLUE:基於提示的大規模預訓練資料集,用於多工學習和零樣本學習

資料集情況:

1.單分類tnews 
2.單分類iflytek 
3.自然語言推理ocnli 
4.語意匹配afqmc 
5.指代消解-cluewsc2020 
6.關鍵詞識別-csl 
7.閱讀理解-自由式c3 
8.閱讀理解-抽取式cmrc2018 
9.閱讀理解-成語填空chid 

資料量: 120萬訓練資料,73個Prompt
1. 訓練集 train.json: 1,200,705
2. 驗證集 dev.json: 100,000
3. 公開測試集 test_public.json: 129,556
4. 測試集 test.json: 250,461

具體資料,見:./datasets
input:模型的輸入
target:模型的輸出
type:任務型別,閱讀理解(mrc),分類(classify),生成(generate),自然語言推理(nli)
評價標準:閱讀理解(em),分類(acc),生成(em),自然語言推理(acc)
answer_choices:選項(只有分類、推理類任務有)

預測任務輸出情況

6300 input_string: 3號型蒸汽機車是全臺鐵路商務總局購入的飽合式蒸汽機車,其特徵是披覆在車體上的水櫃,如同馬鞍般。臺灣清治時期的全臺鐵路商務總局向英國(Hawthorn Leslie and Company),訂購馬鞍型水櫃式機車。1889年與1893年各製造3部,總共6部。1895年甲午戰爭清朝戰敗後日本成立臨時臺灣鐵道隊來代管臺灣鐵路,最初將3號型全配北部線。1899年臺灣總督府交通局鐵道部成立後於1904年將2部機車轉配彰化段。進入大正時代後又集合北部、在基隆段1部、臺北段5部。1918年為了宜蘭線的工程和營運而將2部機車海運至宜蘭段、1920年全數轉配宜蘭段。隨著機車逐漸老化與過時,至1926年3號機車報廢。1927年在臺北段2部宜蘭段3部,1929年全部停止運用,1931年報廢。今已無一部儲存。3號-5號無另取名。
參考上述上下文,3號型蒸汽機車什麼時候全部被停用?
答案: ;predict: 1929年
6400 input_string: 看購影豆原影豆是看購電影集團旗下的一個集線上購票、電影資訊、互動社群及影迷福利等服務於一體的一站式電影平臺。我們致力於打造好玩的電影APP,讓更多人享受電影帶來的樂趣。影片資訊搶鮮看電影導讀、電影解析、熱映電影精彩預告片,為您提供更多精彩的電影資訊。影迷圈看有意思的內容影迷圈為您提供影迷精選內容、影迷動態,看看他們都在看什麼會員享特權積分兌好禮升級會員,享受專屬特權,購票更優惠。每天做任務,積分好禮隨心換支付便捷看購卡購票更簡單紅包賬戶、看購卡餘額、第三方支付,使用者可隨心組合購買影票。持有看購卡使用者可直接綁卡購買,也可以使用多種支付形式組合購買影票。聯絡我們看購電影客服熱線每天90021004006776501看購影豆熱線工作日830173001057228847看購影豆APP新版開通了自助客服功能,歡迎點選我的線上客服體驗小祕書服務。官方微信訂閱號影豆生活官方微信服務號看購電影更新內容更新紀錄檔1.修改部分Bug
這個是關於哪方面的App應用程式的描述?
選項:銀行,社群,電商,支付,經營,卡牌,借貸,駕校,理財,職考,新聞,旅遊,交通,魔幻,醫療,影像,動作,工具,體育,小說,運動,相機,工具,快遞,教育,股票,菜譜,行車,仙俠,親子,購物,射擊,漫畫,小學,同城,成人,求職,電子,藝術,賺錢,約會,經營,兼職,視訊,音樂,英語,棋牌,攝影,養生,辦公,政務,視訊,論壇,彩票,直播,其他,休閒,策略,通訊,買車,違章,地圖,民航,電臺,語言,搞笑,婚戀,超市,養車,雜誌,線上,家政,影視,裝修,資訊,社交,餐飲,美顏,掛號,飛行,預定,票務,筆記,買房,外賣,母嬰,打車,情侶,日程,租車,部落格,百科,繪畫,鐵路,生活,租房,酒店,保險,問答,收款,競技,唱歌,技術,減肥,工作,團購,記賬,女性,公務,二手,美妝,汽車,行程,免費,教輔,兩性,出國,婚慶,民宿。
答案: ;predict: 電影資訊
6500 input_string: 你會把這個新聞推薦給關注哪方面的人:故事,文化,娛樂,體育,財經,房產,汽車,教育,科技,軍事,旅遊,國際,股票,農業,遊戲?疫情下我國高校應屆畢業生創業現狀調查


1500 input_string: 來到雲南紅河,有中國最美的山嶺雕刻,還有小巴黎之稱的碧色寨
 哪個類別最好的描述了這篇新聞?
選項:故事,文化,娛樂,體育,財經,房產,汽車,教育,科技,軍事,旅遊,國際,股票,農業,遊戲
答案: ;predict: 旅遊

從訓練資料集以及處理的下游任務可以看出這是在做一個多工學習的自然語言模型,關於生成式模型以及生成式多輪智慧對話大模型基本不太沾邊,我覺得是我在第三節裡講的級別一

這裡也就是展現了演演算法技術的瓶頸,當然也不排除只是對方沒開源。但從目前獲取資訊來看,肯定沒有用到強化學習演演算法技術,距離真正AI還有差距。

當然第三節提到的四種方案,從使用者側來看相對比較難感受到的,畢竟國內語意搜尋智慧推薦等演演算法很發達,通過前端包裝好。使用者還是很難發現的,最多會覺得 「這個AI有點不太聰明呀」

4.2 MOSS

網上看了很多測評,暴露問題和chatyuan一樣,就不在贅述了。

5.未來應用和期待

5.1 未來應用

結合ChatGPT的底層技術邏輯,有媒體曾列出了中短期內ChatGPT的潛在產業化方向:歸納性的文字類工作、程式碼開發相關工作、影象生成領域、智慧客服類工作

5.2 期待

個人比較期待百度的文言一心以及位元組跳動,在通用領域優勢比較大,同時技術也比較前沿,百度飛槳在開源方面做的也比較好,值得期待。希望實現的是級別三的方案。