一道小学一年级数学题,国产大模型全军覆没


让8个国产主流大模型做做小学一年级的数学题看看?

8月31日消息,首批大模型产品将陆续通过《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)备案,可正式上线面向公众提供服务。其中包括:百度文心一言、抖音云雀大模型、智谱AI的GLM大模型、中科院的紫东太初大模型、百川智能的百川大模型、商汤的日日新大模型、MiniMax的ABAB大模型、上海人工智能实验室的书生通用大模型、科大讯飞星火大模型,以及华为、腾讯的大模型产品,共计11家。

这是今天的新闻,上面提到的这些模型目前大部分都可以找到在线体验入口,想起前几天给我们家小孩讲过的小学一年级数学练习册里的一道题目,拿来考考这些大语言模型,看看它们的表现。

题目:15个圆球从上往下排列,其中只有1个是红色的,从上往下数,红色圆球位于第6个,这时,从最尾部拿走一个球,此时,请问从下往上数,红色圆球在第几个?

中科院的紫东太初大模型、上海人工智能实验室的书生通用大模型、华为的盘古大模型、腾讯的混元大模型,这四个我没有找到在线体验入口。另外,阿里的通义千问虽然没有在上述11家里,但因为知名度的关系,我也测试了。

先说结论,挺出乎我意料的,国产大模型在这道相对简单的推理题上全军覆没,字节云雀和讯飞星火算是勉强摸到边,其他模型的回答都很糟糕。最后一张截图是我调了一下OpenAI的gpt-turbo-3.5-0613模型,它给出了正确的答案。

文章最后附上了各个模型的入口,有兴趣的同学可以自己去体验一下。

百度文心一言


图片[1]-一道小学一年级数学题,国产大模型全军覆没-五八三

字节云雀(豆包)


图片[2]-一道小学一年级数学题,国产大模型全军覆没-五八三

智谱AI


图片[3]-一道小学一年级数学题,国产大模型全军覆没-五八三

百川智能


图片[4]-一道小学一年级数学题,国产大模型全军覆没-五八三

商汤日日新(商量)


图片[5]-一道小学一年级数学题,国产大模型全军覆没-五八三

MiniMax ABAB


图片[6]-一道小学一年级数学题,国产大模型全军覆没-五八三

科大讯飞星火


图片[7]-一道小学一年级数学题,国产大模型全军覆没-五八三

阿里通义千问


图片[8]-一道小学一年级数学题,国产大模型全军覆没-五八三

GPT-TURBO-3.5-0613


图片[9]-一道小学一年级数学题,国产大模型全军覆没-五八三

附:各模型的体验入口

百度文心一言:https://yiyan.baidu.com/
字节云雀(豆包):https://www.doubao.com/chat/
智谱AI:https://open.bigmodel.cn/trialcenter?modelCode=chatglm_pro 
百川智能:https://chat.baichuan-ai.com/home 
商汤日日新(商量):https://chat.sensetime.com/wb/#/ 
MiniMax ABAB:https://api.minimax.chat/examination-center/text-experience-center 
科大讯飞星火:https://xinghuo.xfyun.cn/desk 
阿里通义千问:https://qianwen.aliyun.com/chat 
ChatGPT:可扫描文章下方二维码关注公众号,自动获得本人自建的免费跳板地址

?欢迎扫描文章下方二维码关注公众号,可自动获得ChatGPT访问地址(本人自己搭建的跳板,可免费使用)?

© 版权声明
THE END
喜欢就支持一下吧
点赞0

Warning: mysqli_query(): (HY000/3): Error writing file '/tmp/MYtag3Nn' (Errcode: 28 - No space left on device) in /www/wwwroot/583.cn/wp-includes/class-wpdb.php on line 2345
admin的头像-五八三
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

图形验证码
取消
昵称代码图片