近日,“9.11和9.9哪个大”的问题引发热议,一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型之后,得出的结果是:阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错,错法各有不同。
对此,有网友表示:“没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了?”
大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。
另有业内人士表示,目前来看大模型的数理能力相对较差的情况在中外都是一样的,“打个比方可以这样讲,大模型就是偏科,文科强理科弱,这个情况在一段时间内也不会得到明显的改善”。
值得注意的是,对于答错的大模型,在进一步追问或者否认后,几乎所有大模型在被追问后都承认自己之前回答错误,并给出了正确的答案。
扫一扫
在手机上阅读