@HEI: 评估商业AI聊天机器人作为新闻中介 — Mirac Suzgun, Emily Shen, Federico Bianchi, Alexander Spangher…
摘要
一项研究评估了六款商业AI聊天机器人在基于BBC新闻的六种语言事实性问题上的表现,发现多项选择题准确率高,但自由回答准确率显著下降,其中检索错误导致超过70%的失败,并揭示了区域偏差。
查看缓存全文
缓存时间: 2026/05/30 06:31
评估商业AI聊天机器人作为新闻中介
Mirac Suzgun, Emily Shen, Federico Bianchi, Alexander Spangher, Thomas Icard, Daniel E. Ho, Dan Jurafsky, James Zou
https://arxiv.org/abs/2605.22785 [cs.CL]
评估商业AI聊天机器人作为新闻中介
来源: https://arxiv.org/html/2605.22785
Emily Shen, Federico Bianchi, Alexander Spangher, Thomas Icard, Daniel E. Ho, Dan Jurafsky, James Zou
摘要
AI聊天机器人正迅速改变人们获取新闻的方式,但此前尚无研究系统性地衡量这些系统——凭借其专有的搜索集成和检索-合成流程——在不同语言和世界区域中处理新兴事实的准确程度。我们提出了一项为期十四天(2026年2月9日至22日)的实时评估,对六个商业AI聊天机器人(Gemini 3 Flash和Pro、Grok 4、Claude 4.5 Sonnet、GPT-5和GPT-4o mini)进行了测试,评估基于来自同日BBC新闻六个区域服务(美国及加拿大、阿拉伯语、非洲法语、印地语、俄语、土耳其语)的2100个事实性问题,共计12600个模型-问题实例。最佳系统在关于数小时前报道的事件的问题上取得了超过90%的多选题准确率,这是相对于先前实时问答基准的一次阶梯式进步,也是AI中介信息获取能力的一次提升。然而,这些是多选题得分。同样的系统在自由回答评估下准确率下降11-13%,整个队列平均下降16-17%。我们进一步描述了三种后果性的失败模式。第一,每个模型在印地语上的准确率最低(79%,其他语言为89-91%);引用模式与英语检索偏差一致:回答印地语查询的模型引用英语维基百科的频率高于任何印地语新闻媒体,用报道不同事实的英语代理替代了本地新闻。第二,检索失败(而非推理失败)在所有语言中占全部错误的70%以上。当模型检索到正确来源时,它们几乎总能提取出正确答案;问题在于首先要找到正确的来源。第三,在结构良好的问题上达到88-96%准确率的模型,当问题包含微妙的虚假前提时,准确率降至19-70%,其中最脆弱的模型有64%的时间接受了捏造的事实。我们进一步发现了一个检测-准确率悖论:最好的虚假前提检测器在对抗性准确率(弃权率)上排名第二,而一个较弱的检测器排名第一,这表明前提检测和答案恢复是部分独立的能力。总体而言,这些结果表明,高准确率(对用户和开发者最可见的指标)可能掩盖了系统性的区域不平等、对检索基础设施近乎完全的依赖,以及对真实用户可能提出的不完美查询的严重脆弱性。
![[无标题图片]](https://arxiv.org/html/2605.22785v1/x1.png)
机器学习, ICML
1 引言
AI聊天机器人正迅速成为公众与新闻之间的中介——这种转变的速度史无前例。到2025年10月,仅ChatGPT就已达到8亿周活跃用户(Bellan, 2025 (https://arxiv.org/html/2605.22785#bib.bib4)),在不到三年内被约10%的世界成年人口所采用(Chatterji et al., 2025 (https://arxiv.org/html/2605.22785#bib.bib5))。在美国,34%的成年人现在使用ChatGPT,约为两年前的两倍,在30岁以下成年人中采用率达到58%(Sidoti & McClain, 2025 (https://arxiv.org/html/2605.22785#bib.bib54))。在美国青少年中,64%报告使用AI聊天机器人,其中近三分之一每天使用(Faverio & Sidoti, 2025 (https://arxiv.org/html/2605.22785#bib.bib12))。这种采用延伸到新闻消费:约十分之一美国成年人至少有时会向聊天机器人咨询新闻(Lipka & Eddy, 2025 (https://arxiv.org/html/2605.22785#bib.bib28)),而在全球范围内,7%的新闻消费者每周为此目的使用它们,在25岁以下人群中这一比例升至15%(Newman et al., 2025 (https://arxiv.org/html/2605.22785#bib.bib34); YouGov, 2025 (https://arxiv.org/html/2605.22785#bib.bib67))。这些数字正在快速增长,趋势似乎很明确:AI中介的新闻获取正在成为公民日常生活的常规特征,特别是对于将依赖这些系统度过整个社会和政治生命周期的年轻一代而言。然而,记录采用率上升的同一批调查也反映了脆弱的信任和可靠性模式。在使用聊天机器人获取新闻的美国成年人中,约一半报告遇到过他们认为不准确的信息,约三分之一表示他们难以区分真假(Wang & Haner, 2025 (https://arxiv.org/html/2605.22785#bib.bib61))。这些担忧并非毫无根据。系统性评估表明,LLM生成的引文经常无法支持其伴随的主张——即使在医学等高风险领域,30-50%的单个陈述可能缺乏充分的来源支持(Wu et al., 2025 (https://arxiv.org/html/2605.22785#bib.bib63))。问题在供给侧进一步加剧:对1500家美国报纸的大规模审计发现,约9%的新发表文章现在部分或完全由AI生成,此类使用很少被披露,且不成比例地集中在小型本地媒体(Russell et al., 2025 (https://arxiv.org/html/2605.22785#bib.bib48))。因此,AI正在同时重塑新闻的生产和消费,引发了关于这些系统作为信息中介的事实可靠性和鲁棒性的紧迫问题。然而,其影响远不止于个体准确性。新闻使得知情的民主参与成为可能,促进公共问责,并为富有成效的讨论提供共享的证据基础。最近的实验表明,对话式AI可以有意义地改变政治态度,其说服力由信息密集的论证驱动,而提高AI说服力的方法会系统性地降低事实准确性(Hackenburg et al., 2025 (https://arxiv.org/html/2605.22785#bib.bib15))。如果聊天机器人同时作为有说服力的对话代理和主要新闻来源,其输出的事实可靠性就具有了公民意义。这一挑战对于突发新闻尤为严峻:在数小时或数天内展开的事件。突发(或发展中的)事件通过实时报道被记录下来,这些报道开始时并不完整,并随着新事实的出现而演变。对于AI评估来说,它们特别苛刻,因为它们发生在模型训练结束后,从而迫使语言模型依赖检索增强生成(RAG)——搜索实时网络、评估不确定质量的来源、综合可能相互矛盾的叙述,并保留那些将准确报道与错误信息区分开来的确切细节。先前的评估主要是在静态基准上评估模型(Lin et al., 2022 (https://arxiv.org/html/2605.22785#bib.bib27); Min et al., 2023 (https://arxiv.org/html/2605.22785#bib.bib33)),测试了没有生产级检索基础设施的基础模型(Lewis et al., 2020 (https://arxiv.org/html/2605.22785#bib.bib24); Asai et al., 2023 (https://arxiv.org/html/2605.22785#bib.bib3)),或者考察了时间敏感的问题而没有系统性地研究跨语言表现或引用行为(Kasai et al., 2023 (https://arxiv.org/html/2605.22785#bib.bib20); Vu et al., 2024 (https://arxiv.org/html/2605.22785#bib.bib59))。另一项关于动态和时间问答的成长性研究已经确定,即使是强大的模型也仍然难以处理时间知识(Xu et al., 2025b (https://arxiv.org/html/2605.22785#bib.bib65); Pletenev et al., 2025 (https://arxiv.org/html/2605.22785#bib.bib42); Lin et al., 2025 (https://arxiv.org/html/2605.22785#bib.bib26); Li & Goyal, 2025 (https://arxiv.org/html/2605.22785#bib.bib25); Ouyang et al., 2025 (https://arxiv.org/html/2605.22785#bib.bib36))。然而,据我们所知,没有先前研究衡量过部署给数亿用户的生产系统——具有专有搜索集成、安全过滤和定义实际用户体验的后处理功能的网络界面——在跨越不同全球背景的突发新闻事实问题上的表现。我们旨在通过一项实时评估来填补这一空白,评估六个商业AI聊天机器人——即OpenAI的GPT-5和GPT-4o-mini、Google的Gemini 3 Pro和Flash、Anthropic的Claude 4.5 Sonnet以及xAI的Grok 4——测量它们回答关于突发头条新闻的具体事实问题的能力,通常是在报道发布后24小时内。我们的研究贯穿了连续14天(2026年2月9日至22日),从覆盖总人口超过20亿的六个BBC新闻区域服务的同期报道中生成了2100个五选项多选题:美国及加拿大(英语)、阿拉伯语、非洲法语、印地语、俄语和土耳其语。每个问题针对具体的、可验证的细节(例如,准确引文、具体数字、命名实体、特定地点),理想情况下只有通过准确检索和解读来源材料才能回答。所有六个模型都在每天的问题上并行评估,产生了12600个模型-问题实例。我们选择BBC新闻是因为它独特地满足了我们方法论上的要求:由本地记者(而非翻译)运营的编辑独立的区域服务、跨区域一致的新闻标准、相对较高的公众信任度(Orth & Carl, 2025 (https://arxiv.org/html/2605.22785#bib.bib35)),以及突出的网络索引。然而,我们指出,这些条件可能代表了检索增强系统的有利场景;在索引较差的来源上的表现可能会更差。除了标准评估,我们还构建了对抗性问题集——微妙地改变真实新闻事件的事实前提——以测试模型是否能够抵抗被不完美或误导性查询引入歧途。¹¹¹三项设计局限值得事先承认。第一,BBC在开放网络上索引良好,因此我们的结果描述了有利(而非典型)环境下的检索性能;在不太知名的媒体上的表现可能会更低。第二,由于问题来源于具体的BBC文章,那些与BBC拥有更宽松爬取协议的提供商的模型在机械上具有优势;引用层面的分析应据此解读。我们将在§5(https://arxiv.org/html/2605.22785#S5)中回到付费墙、许可和爬取政策的作用。第三,问题是五选项多选题;开放式查询可能会暴露更多失败模式。我们将在§5中对所有三点进行讨论。
(1) 实时事实准确性的实质性进展。前沿AI聊天机器人在突发新闻方面的事实表现现在达到了即使不久前也难以预见的水平。前四大系统——Gemini 3 Flash(95.6%)、Grok 4(95.0%)、Gemini 3 Pro(93.7%)和Claude 4.5 Sonnet(90.4%)——在关于前24小时内报道的事件的问题上均超过90%的准确率,这是相对于先前实时问答基准的一项实质性进步,在这些基准中,最佳的检索增强系统在类似任务上达到了大约70-80%(例如,Kasai et al., 2023 (https://arxiv.org/html/2605.22785#bib.bib20))。这反映了基础模型能力和检索基础设施的改进,尽管我们也指出,这些数字代表了多选题的上限:我们的格式验证(§2.5 (https://arxiv.org/html/2605.22785#S2.SS5))显示,自由回答的准确率可能低约20%,较弱模型在移除答案选项时损失最大。与此同时,我们的结果显示前沿提供商之间存在差距:GPT-5达到85.0%(落后领先模型10%以上,并落后于所有非OpenAI模型),而较为老旧和小型的GPT-4o-mini仅达到69.0%。鉴于ChatGPT占据主导市场份额,拥有超过8亿周活跃用户和约10%的全球成年人口(Bellan, 2025 (https://arxiv.org/html/2605.22785#bib.bib4); Chatterji et al., 2025 (https://arxiv.org/html/2605.22785#bib.bib5)),这一差距意味着使用最广泛的聊天机器人,在我们的评估中,也是突发新闻方面最不准确的前沿模型。然而,这种高基线水平与四种模式共存,使可信AI中介新闻的图景复杂化。
(2) 系统性的区域不平等,尤其在印地语中显著。在所有测试模型中,印地语的表现最低:准确率降至79%,而所有其他区域为89-91%,即使排除最弱的模型,这一差距仍然存在。详细的错误分析表明,这不是语言理解失败(模型能生成流利的印地语并在该语言中完成有能力的推理),而是检索和依据失败,模型转而使用报告不同细节的英语来源。引用分析揭示了机制:回答印地语查询的模型引用英语维基百科的频率高于任何印地语新闻媒体,通过英语信息透镜中介了本地新闻。这一发现将先前关于跨语言表现变化(Ahuja et al., 2023 (https://arxiv.org/html/2605.22785#bib.bib1); Shafayat et al., 2024 (https://arxiv.org/html/2605.22785#bib.bib51))和分词器不平等(Petrov et al., 2023 (https://arxiv.org/html/2605.22785#bib.bib39))的工作扩展到了一个检索中介的新闻环境,其中瓶颈不是模型能力,而是搜索和合成流程。
(3) 检索是核心瓶颈,而非推理。检索到错误来源和未能检索到相关内容共同占错误的70%以上;禁用网络搜索会使准确率下降31-46%。当模型检索到正确来源时,它们通常能提取出正确答案。我们将这些失败统一为证据绑定(evidence binding)的失效——即将答案锚定到问题所需的特定来源中特定命题的问题。
参考标题
图1:评估流程概览。(1)每天从六个BBC新闻区域服务收集文章,涵盖四种文字和总人口超过20亿。(2-3)从同日报道中生成为每个区域生成25个五选项多选题,并在六个模型上并行评估,启用原生网络搜索。(4)由此产生的12600个模型-问题实例揭示了在§3(https://arxiv.org/html/2605.22785#S3)–4(https://arxiv.org/html/2605.22785#S4)中详述的准确率、引用行为、错误机制和对抗鲁棒性方面的系统模式。
(4) 高能力不等于鲁棒性。在干净条件下达到95%以上准确率的模型,在对抗性操纵下崩溃至19-70%——即通过对事实前提的微妙改动,真实用户可能通过记忆错误或混淆细节合理地引入这些改动。最脆弱的模型在64%的时间里接受了虚假前提并产生了一致性的幻觉。²²²我们进一步提出了一个所谓的检测-准确率悖论:在检测虚假前提方面最佳的模型(80%)在对抗性准确率上仅排名第二,而一个检测能力较弱(59%)的模型凭借检索强度本身达到了最高的对抗性准确率——这表明鲁棒性需要前提检测和答案恢复两种能力。这一发现与日益增多的关于谄媚(sycophancy)的研究文献相联系(Sharma et al., 2024 (https://arxiv.org/html/2605.22785#bib.bib52); Wei et al., 2025 (https://arxiv.org/html/2605.22785#bib.bib62); Cheng et al., 20
相似文章
训练AI聊天机器人使其更温暖和富有同理心会降低其事实准确性
新研究表明,训练AI聊天机器人变得更温暖、更富同理心会显著降低其事实准确性,导致医疗建议错误率升高,并增加对用户误解的认同。这一发现挑战了普遍认为可以在不损害事实正确性的情况下调整对话风格的假设。
研究:AI聊天机器人回答普通用户日常健康相关问题的准确率近76%
宾夕法尼亚州立大学的一项研究发现,像ChatGPT这样的AI聊天机器人回答日常健康问题的准确率接近76%,这引发了人们对它们在现实医疗应用中可信度的担忧。研究指出,AI工具可能更适合由医生使用,而非患者。
AI产品主要依赖聊天历史做个性化,这种做法是不是错了?
这篇文章质疑AI产品是否过度依赖聊天历史进行个性化,指出聊天历史数据嘈杂,且摘要、标签和偏好字段都有缺陷。它寻求在不显得侵入的情况下,找到替代的真实信息来源来获取上下文。
评估了一个RAG聊天机器人,最昂贵的模型表现最差。关于真正影响性能的因素的笔记。
对RAG客户支持聊天机器人的详细评估揭示:检索问题常被误认为是LLM问题,启发式评估器具有误导性,去重可提升质量,严格基于文档的约束会在帮助性和准确性之间取舍,而模型扫查可在提升性能的同时大幅降低成本。
ChatGPT、Gemini、Claude、Grok 未能通过选举话题准确性测试:Forum AI
Forum AI 的一项研究发现,ChatGPT、Gemini、Claude 和 Grok 等主要聊天机器人未能提供准确且无偏见的选举信息,其中 90% 的回答包含错误或偏见。