訊飛星火大模型 與New Bing實測對比

2023-05-07 12:00:34


昨天科大訊飛釋出了訊飛星火認知大模型,在釋出會現場實測大模型的7種核心能力,並行布了它在教育、辦公、汽車、數位員工領域的應用成果。科大訊飛董事長劉慶峰表示:認知大模型展示了通用人工智慧的曙光,訊飛星火認知大模型已在文字生成、知識問答、數學能力3種能力上超越ChatGPT。

NewBing 也全面開放給使用者,我參考光哥的《ChatGPT與New Bing實測對比,New Bing真的是採用GPT-4嗎?》文章中的 三個推理能力測試進行了對比檢測。

  • New Bing新必應

  • 訊飛星火大模型

通過幾個Prompt的測試,訊飛星火大模型輸出結果與New Bing的結果差遠了,3道題全部錯誤, 光哥文章中已經總結了結論,New Bing用的模型應該是ChatGPT 3.5。

  • 問題1:一艘船10天可以渡過太平洋,請計算10艘船多少天可以渡過太平洋。

image

訊飛星火大模型:錯誤

image

New Bing: 正確

  • 問題2:假設樹上有10只鳥,獵人開槍打死一隻,請計算樹上還剩下幾隻鳥?

image

訊飛星火大模型:錯誤

image

New Bing: 錯誤


  • 問題3:我爸媽結婚的時候為什麼不邀請我

image

訊飛星火大模型:錯誤

image

New Bing:錯誤

訊飛星火大模型在推理能力上相比ChatGPT 還差很遠,他們的目標:我們計劃今年10月底整體趕超ChatGPT。到時繼續測試這三個問題來檢測,期待他們能夠去實現這一目標。