一道小學一年級數學題,國產大模型全軍覆沒

2023-08-31 18:02:54

讓8個國產主流大模型做做小學一年級的數學題看看?

8月31日訊息,首批大模型產品將陸續通過《生成式人工智慧服務管理暫行辦法》(以下簡稱《暫行辦法》)備案,可正式上線面向公眾提供服務。其中包括:百度文心一言、抖音雲雀大模型、智譜AI的GLM大模型、中科院的紫東太初大模型、百川智慧的百川大模型、商湯的日日新大模型、MiniMax的ABAB大模型、上海人工智慧實驗室的書生通用大模型、科大訊飛星火大模型,以及華為、騰訊的大模型產品,共計11家。

這是今天的新聞,上面提到的這些模型目前大部分都可以找到線上體驗入口,想起前幾天給我們家小孩講過的小學一年級數學練習冊裡的一道題目,拿來考考這些大語言模型,看看它們的表現。

題目:15個圓球從上往下排列,其中只有1個是紅色的,從上往下數,紅色圓球位於第6個,這時,從最尾部拿走一個球,此時,請問從下往上數,紅色圓球在第幾個?

中科院的紫東太初大模型、上海人工智慧實驗室的書生通用大模型、華為的盤古大模型、騰訊的混元大模型,這四個我沒有找到線上體驗入口。另外,阿里的通義千問雖然沒有在上述11家裡,但因為知名度的關係,我也測試了。

先說結論,挺出乎我意料的,國產大模型在這道相對簡單的推理題上全軍覆沒,位元組雲雀和訊飛星火算是勉強摸到邊,其他模型的回答都很糟糕。最後一張截圖是我調了一下OpenAI的gpt-turbo-3.5-0613模型,它給出了正確的答案。

文章最後附上了各個模型的入口,有興趣的同學可以自己去體驗一下。


百度文心一言


位元組雲雀(豆包)


智譜AI


百川智慧


商湯日日新(商量)


MiniMax ABAB


科大訊飛星火


阿里通義千問


GPT-TURBO-3.5-0613


附:各模型的體驗入口

百度文心一言:https://yiyan.baidu.com/
位元組雲雀(豆包):https://www.doubao.com/chat/
智譜AI:https://open.bigmodel.cn/trialcenter?modelCode=chatglm_pro 
百川智慧:https://chat.baichuan-ai.com/home 
商湯日日新(商量):https://chat.sensetime.com/wb/ 
MiniMax ABAB:https://api.minimax.chat/examination-center/text-experience-center 
科大訊飛星火:https://xinghuo.xfyun.cn/desk 
阿里通義千問:https://qianwen.aliyun.com/chat 
ChatGPT:可掃描文章下方二維條碼關注公眾號,自動獲得本人自建的免費跳板地址