OpenBioRQ:AI代理有15.9%的概率引用错误论文
摘要
一项新的基准论文OpenBioRQ揭示,AI代理很少捏造引用,但常常引用不支持其主张的论文,在生物医学语境中有15.9%的引用不匹配。
AI代理的引用问题实际上并非通常意义上的幻觉。一篇新的基准论文[OpenBioRQ](https://arxiv.org/abs/2606.21959)涵盖了12个领域的12,553个未解决的生物医学研究问题,发现代理很少捏造引用:超过99%的引用URL正确解析。失败更为微妙,大约15.9%的引用链接到实际上不支持其主张的论文。这一区别对构建和评估AI代理至关重要。如果你的基准只检查URL是否解析,你会给系统在引用准确性上打出近乎满分的成绩,而忽略了在生物医学语境中大约每六条引用就有一条存在错误匹配的问题。该基准有意使用开放性的未解决问题作为忠实性和弃权探测,因为无已知答案的问题阻止模型简单地复现预期来源。当前前沿系统的性能表现也令人警醒。Gemini-3-Pro、Opus-4.7和GPT-5.5在最难子集上的表现范围在29%到60%之间,而开放权重模型仅解决了约17%的问题。论文还观察到,在难题上,AI代理倾向于完全停止使用它们的检索工具,这种行为崩溃加剧了引用准确性问题。
--- 更多信息:https://aiweekly.co/alerts/openbiorq-ai-agents-cite-wrong-papers-159-of-the-time
相似文章
OpenBioRQ:面向智能体的未解决生物医学研究问题
OpenBioRQ 是一个包含12,553个未解决生物医学研究问题的新基准,用于测试智能体模型验证来源和避免虚假引用的能力。该基准揭示,当前模型经常链接到错误的论文,并在难题上出现智能体崩溃。
斯坦福研究人员发现,OpenAI和Google的模型在30%的情况下引用错误来源
由James Zou领导的斯坦福研究人员发现,OpenAI、Anthropic和Google的AI模型在约30%的情况下引用错误来源,即使回答大部分正确。该研究突显了文本生成与准确引用之间的关键不匹配,给医学和法律等领域带来风险。
@rohanpaul_ai: Anthropic新研究表明,AI智能体在代码方面可能表现卓越,但在生物学领域,它们可能在科学工作开始之前就失败……
Anthropic的研究揭示,AI智能体在生物学数据库方面存在困难,对同一个查询会产生高度差异的答案(例如,埃博拉序列计数范围从5到106,而预期为266),但添加一个可重复的检索工具能显著提高一致性和准确性。
研究人员刚刚在医学论文中发现28个虚假AI引用
研究人员在影响临床指南的医学论文中发现了28个AI生成的虚假引用,凸显了AI幻觉破坏科学诚信和患者护理的风险。
PaperBench:评估AI复现AI研究的能力
OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。