9.11比9.9大？多个大模型答错，业内人士：就是偏科，文科强理科弱

近日，“9.11和9.9哪个大”的问题引发热议，一一测试了ChatGPT以及目前国内的主流大模型，包括阿里、百度等5家大厂模型，月之暗面等6家AI独角兽的模型之后，得出的结果是：阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对，其他8家则答错，错法各有不同。

对此，有网友表示：“没眼看……“9.11和9.9哪个大”这样简单的问题，居然把主流大模型都难倒了？”

大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现，他在平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难。”他表示。

另有业内人士表示，目前来看大模型的数理能力相对较差的情况在中外都是一样的，“打个比方可以这样讲，大模型就是偏科，文科强理科弱，这个情况在一段时间内也不会得到明显的改善”。

值得注意的是，对于答错的大模型，在进一步追问或者否认后，几乎所有大模型在被追问后都承认自己之前回答错误，并给出了正确的答案。

家乐福被裁员工曝未拿到补偿金，此前通知补偿金打6折一次性发和全款分12期之间二选一

发布于：2023-08-01T01:18:01Z | 205次阅读 | 详细内容 »

发布于：2023-08-03T01:55:09Z | 202次阅读 | 详细内容 »