大模型集体失智:9.11和9.9哪个大,几乎全翻车了【快讯】_今日新闻_微材之窗网
推广 热搜: 广州  SEO  贷款    深圳  医院  摩托车  网站建设  机器人  用户体验 

大模型集体失智:9.11和9.9哪个大,几乎全翻车了【快讯】

   日期:2024-07-18 10:30:27     来源:互联网    作者:微材之窗网    浏览:18    
核心提示:近期,一个看似简单的数学问题挑战了众多前沿的人工智能大模型,引发了业界的关注。问题本身并不复杂:9.11和9.9哪个数字更大?然而,在第一财经记者的测试中,即便是先进的AI系统也出现了分歧

大模型集体失智:9.11和9.9哪个大,几乎全翻车了

近期,一个看似简单的数学问题挑战了众多前沿的人工智能大模型,引发了业界的关注。问题本身并不复杂:9.11和9.9哪个数字更大?然而,在第一财经记者的测试中,即便是先进的AI系统也出现了分歧。在12款接受测试的大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝给出了正确的答案,剩余八款模型,包括知名的ChatGPT-4o等,则在这个基础数学问题上栽了跟头。

大模型集体失智:9.11和9.9哪个大,几乎全翻车了

这些出错的大模型大多陷入了比较小数点后数字的误区,误以为9.11大于9.9。即使记者明确指出是在数学的语境下进行比较,类似ChatGPT这样的顶尖大模型也未能避免错误。这揭示了长久以来大模型在处理数学问题上的不足,反映出它们的设计更偏向于文字处理而非数字逻辑。

大模型集体失智:9.11和9.9哪个大,几乎全翻车了

该现象的起因可追溯至一档综艺节目中的投票率比较,观众对13.8%与13.11%的大小产生争议,进而引发了公众对AI处理此类基本数学问题能力的好奇和测试。测试结果显示,许多AI在面对这类基础数学问题时显得力不从心,尽管它们在复杂的语言任务上表现出色。

大模型集体失智:9.11和9.9哪个大,几乎全翻车了

探究其背后的原因,专家们指出,生成式语言模型的本质决定了它们更擅长处理基于文本的关联性任务,而非数学所需的逻辑推理和精确计算。语言模型通过学习海量文本数据来预测下一个词,这使得它们在文学创作上能够展现出接近人类的水平,但在需要严谨逻辑和抽象思维的数学领域,却显得力有未逮。此外,数字处理时的分词问题也是导致错误的一个技术因素,现有分词器往往没有针对数学计算进行优化,可能导致数字被错误分割,影响模型的理解。

 
免责声明:以上所展示的信息由网友自行发布,内容的真实性、准确性和合法性由发布者负责。 微材之窗网对此不承担任何保证责任, 微材之窗网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张(包括但不限于侵犯著作权、商业信誉等),请与我们联系并出示相关证据,我们将按国家相关法规即时移除。

本文地址:http://news.gzbj58.com/246215.html

打赏
 
更多>同类资讯

推荐图文
推荐资讯
点击排行

网站首页  |  付款方式  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  粤ICP备11090451号
免责声明:本站所有信息均来自互联网搜集,产品相关信息的真实性准确性均由发布单位及个人负责,请大家仔细辨认!并不代表本站观点,微材之窗网对此不承担任何相关法律责任!如有信息侵犯了您的权益,请告知,本站将立刻删除。
友情提示:买产品需谨慎
网站资讯与建议:wfzcw@qq.com