大模型集体失智:9.11和9.9哪个大,几乎全翻车了
大模型集体失智:9.11和9.9哪个大,几乎全翻车了
近期,一个看似简单的数学问题挑战了众多前沿的人工智能大模型,引发了业界的关注。问题本身并不复杂:9.11和9.9哪个数字更大?然而,在第一财经记者的测试中,即便是先进的AI系统也出现了分歧。在12款接受测试的大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝给出了正确的答案,剩余八款模型,包括知名的ChatGPT-4o等,则在这个基础数学问题上栽了跟头。
这些出错的大模型大多陷入了比较小数点后数字的误区,误以为9.11大于9.9。即使记者明确指出是在数学的语境下进行比较,类似ChatGPT这样的顶尖大模型也未能避免错误。这揭示了长久以来大模型在处理数学问题上的不足,反映出它们的设计更偏向于文字处理而非数字逻辑。
该现象的起因可追溯至一档综艺节目中的投票率比较,观众对13.8%与13.11%的大小产生争议,进而引发了公众对AI处理此类基本数学问题能力的好奇和测试。测试结果显示,许多AI在面对这类基础数学问题时显得力不从心,尽管它们在复杂的语言任务上表现出色。
探究其背后的原因,专家们指出,生成式语言模型的本质决定了它们更擅长处理基于文本的关联性任务,而非数学所需的逻辑推理和精确计算。语言模型通过学习海量文本数据来预测下一个词,这使得它们在文学创作上能够展现出接近人类的水平,但在需要严谨逻辑和抽象思维的数学领域,却显得力有未逮。此外,数字处理时的分词问题也是导致错误的一个技术因素,现有分词器往往没有针对数学计算进行优化,可能导致数字被错误分割,影响模型的理解。
为改善这一状况,有观点认为,针对性的语料训练能够逐步提升大模型的理科能力,特别是通过构造包含数学问题解决过程的数据集来增强模型的数学推理能力。随着AI技术的发展,未来大模型的训练或将更加注重结构化和专业领域的数据构建,以确保它们能够在需要精确计算和复杂推理的场景中发挥可靠作用,比如金融分析、工业报告解读等领域。这不仅是提高模型准确性的需求,也是推动AI技术在更多高要求场景中实现有效落地的关键。
大模型集体失智:9.11和9.9哪个大,几乎全翻车了。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【首都师范大学是211吗】一、“首都师范大学是211吗”是许多考生和家长在选择大学时经常提出的问题。实际上,...浏览全文>>
-
【首都师范大学科德学院自考和统招毕业证不一样吗有什么不一样的】在选择继续教育方式时,很多学生都会关注“...浏览全文>>
-
【首都师范大学科德学院自考本科国家承认学历吗】一、“首都师范大学科德学院自考本科国家承认学历吗”是许多...浏览全文>>
-
【首都师范大学科德学院怎么样首都师范大学科德学院介绍】首都师范大学科德学院是一所位于北京市的全日制本科...浏览全文>>
-
【第一次电影剧情】《第一次》是一部由美国导演理查德·林克莱特(Richard Linklater)执导的电影,于2004年...浏览全文>>
-
【首都师范大学科德学院学费一年多少钱】首都师范大学科德学院是一所经教育部批准设立的全日制本科独立学院,...浏览全文>>
-
【第一次点外卖的流程】对于第一次尝试点外卖的人来说,整个过程可能会有些陌生。不过,只要按照步骤来,就能...浏览全文>>
-
【首都师范大学科德学院学费为什么要这么贵】首都师范大学科德学院作为一所独立学院,近年来在学费方面引发了...浏览全文>>
-
【第一次登泰山的忌讳】泰山,作为五岳之首,不仅是中国文化的重要象征,也是无数人心中的朝圣之地。对于第一...浏览全文>>
-
【首都师范大学科德学院位于哪个城市】首都师范大学科德学院是一所独立学院,隶属于首都师范大学。对于许多学...浏览全文>>