研究发现源验证问题损害了ChatGPT的可靠性

2023-05-10 18:54:30 来源：用户：江芝启

ChatGPT似乎无处不在。摩根士丹利(Morgan Stanley)、多邻国(Duolingo)、Snapchat、可口可乐(Coca-Cola)和Instacart已经签约，程序员、网页设计师、制药公司、作家、音乐家、翻译和所有类型的企业也已签约。

ChatGPT 可供一般使用仅半年，已被全球超过 100 亿用户使用，每天处理超过 10 万次查询。

几乎每天都有故事被写出来，详细说明它颠覆从商业模式到个人日常生活的一切的潜力。每个人都想分一杯羹。

但有些人对ChatGPT的缺点提出了危险信号，ChatGPT是历史上增长最快的应用程序。最引人注目的是三月份的一封由1多名专家签署的信，敦促暂停人工智能技术的扩展，直到更好地理解其风险和危险。

虽然怀疑论者主要关注不良行为者出于有害目的操纵人工智能的可能性，或者想象了人工智能模型自行决定恶意行动的可能情况，但其他人则关注一个更紧迫的问题：准确性。

《华尔街日报》最近警告说，“人工智能聊天机器人和其他生成人工智能程序是它们消费数据的镜像。他们反刍和重新混合他们所喂食的东西，既有很好的效果，也有巨大的失败。

斯坦福大学以人为中心的人工智能研究小组上个月发表了一篇关于arXiv预印本服务器的论文，质疑在大型语言模型检索中检索到的数据的可靠性。

“值得信赖的生成搜索引擎的一个先决条件特征是可验证性，”斯坦福大学博士生、该报告的作者之一尼尔森·刘(Nelson Liu)说。在研究了四个流行搜索引擎的输出后，刘和他的两位同事张天一和蒋珀西报告说，结果“很流畅，看起来很有信息量，但经常包含没有根据的陈述和不准确的引用。

他们研究的生成搜索引擎是Bing Chat，NeevaAI，perplexity.ai 和YouChat。主题范围从歌手艾丽西亚·凯斯的传记数据到社交媒体上的审查问题。

研究人员研究了四个特征：流畅性，感知效用(答案有多大帮助)，引文回忆(引文如何一致地生成陈述完全支持)和引文精度(生成的引文支持相关陈述的比例)。

值得信赖的生成搜索引擎被定义为实现高引文召回率和准确性的搜索引擎。结果令人沮丧。

研究小组发现，回复“通常具有很高的流畅性和可感知的实用性，但经常包含不支持的陈述或不准确的引用。只有大约一半的生成句子得到引用的完全支持，四分之一的引用未能支持相关句子。

此外，研究小组发现引文回忆和精确度与流畅性和感知效用呈负相关。“看起来更有帮助的回应往往是那些有更多不支持的陈述或不准确的引用，”他们观察到。

因此，他们得出结论，“这种可信度的表象增加了现有生成搜索引擎误导用户的可能性。

本周发表在ExtremeTech上的一篇文章谈到了采购问题：“像ChatGPT和Bing Chat这样的聊天机器人非常擅长使虚假信息看起来真实。如果没有引用 - 大多数聊天机器人结果缺乏 - 很难区分准确性和虚假性，特别是在用户在搜索引擎结果页面上花费的短短几秒钟内。

斯坦福大学的研究人员表示，他们的研究结果“对于可能作为信息搜索用户主要工具的系统来说，令人担忧的低 - 特别是考虑到他们的可信度。

研究人员表示，希望他们的研究能够“进一步推动可信赖的生成搜索引擎的发展，并帮助研究人员和用户更好地了解现有商业系统的缺点。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！