9.11和9.9哪个大？简单数学题8家AI大模型平台都翻了车

发布日期：2024-07-17 21:22:27 浏览：

红星资本局7月17日消息，今日，AI大模型在数学上的翻车话题引发不小关注。

一道“9.11和9.9哪个大”的简单数学题，竟困住了海内外一众AI大模型平台。

数学偏科

8个大模型全答错

9.11和9.9哪个更大？据第一财经报道，就这一问题，12个大模型中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。

目前全球公认第一梯队的大模型ChatGPT，在被问到“9.11和9.9哪个大”时回复称，小数点后面的数字“11大于9”，因此9.11大。追问ChatGPT有没有其他比较方法后，它将小数转化成分数比较，得出 “11/100比90/100小”，这一步是对的，但它接着下结论称“因此9.11比9.9大”。

再看国内的大模型，例如询问月之暗面旗下kimi，它在比较小数部分时认为，9.11的第一位小数是1，而9.9的第一位小数是0，错误地给出了小数，得出结论9.11更大。当质疑并提出常识后，kimi转而开始表示自己回答有误，并给出了正确的比较方法。

询问字节豆包，它不仅给出了答案，还举了生活中的例子方便理解，单看似有理有据实则胡说八道。豆包举例认为，假设有两笔钱，“9.11元比9.9元多0.21元”，并且测量长度时“9.11米要比9.9米长”。

商汤商量大模型首先给出了错误答案，当追问具体是如何比较的后，它在推演过程中成功得出小数0.11小于0.9，但话锋一转称“所以9.11大于9.9”。当指出了这个前后逻辑问题，商量随后承认“解释有误”。

值得注意的是，就在上月，AI大模型也因为数学翻车话题火上了热搜。

6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，阿里通义千问大模型Qwen2-72B排名第一，在语数外三科420分的满分中获得303分，OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星（InternLM2-20B-WQX）排名二三位。但引发关注的是，从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格。

业内人士：

一段时间内不会得到明显改善

此前，哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大来源：数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式，如位置接近性、共现统计数据和相关文档计数，从而导致幻觉。此外，大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

针对大模型答数学题普遍“吃瘪”的问题，国内某头部大模型负责人就曾表示，大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来，但数学题既包含规则性，又包含对各种思维的考察，解题逻辑和正常用大模型时的推理逻辑不一定完全一样。

同时该负责人还提到，从更广泛的大模型应用角度来看，AI能不能精准遵循指令是近一段时间内比较重要的事情，真正的商业价值也比较大可能来自于此，而解数学题对目前的AI来说还是一件比较“炫技”的事情。

另有业内人士向南方都市报表示，目前来看大模型的数理能力相对较差的情况在中外都是一样的，“打个比方可以这样讲，大模型就是偏科，文科强理科弱，这个情况在一段时间内也不会得到明显的改善”。

编辑杨程综合自第一财经、南方都市报、科创板日报等

（下载红星新闻，报料有奖！）

上一篇：自然资源部与中国气象局7月17日18时联合发布地质灾害气象风险预警

下一篇：没有了

维修知识
安装知识
清洗保养
行业新闻
常见问题

9.11和9.9哪个大？简单数学题8家AI大模型平台都翻了车

热门排行

空调维修

维修案例