OpenBioRQ：AI代理有15.9%的概率引用错误论文

Reddit r/ArtificialInteligence 2026/06/26 10:19 论文

citation ai-agents benchmark biomedical hallucination faithfulness retrieval

摘要

一项新的基准论文OpenBioRQ揭示，AI代理很少捏造引用，但常常引用不支持其主张的论文，在生物医学语境中有15.9%的引用不匹配。

AI代理的引用问题实际上并非通常意义上的幻觉。一篇新的基准论文[OpenBioRQ](https://arxiv.org/abs/2606.21959)涵盖了12个领域的12,553个未解决的生物医学研究问题，发现代理很少捏造引用：超过99%的引用URL正确解析。失败更为微妙，大约15.9%的引用链接到实际上不支持其主张的论文。这一区别对构建和评估AI代理至关重要。如果你的基准只检查URL是否解析，你会给系统在引用准确性上打出近乎满分的成绩，而忽略了在生物医学语境中大约每六条引用就有一条存在错误匹配的问题。该基准有意使用开放性的未解决问题作为忠实性和弃权探测，因为无已知答案的问题阻止模型简单地复现预期来源。当前前沿系统的性能表现也令人警醒。Gemini-3-Pro、Opus-4.7和GPT-5.5在最难子集上的表现范围在29%到60%之间，而开放权重模型仅解决了约17%的问题。论文还观察到，在难题上，AI代理倾向于完全停止使用它们的检索工具，这种行为崩溃加剧了引用准确性问题。 --- 更多信息：https://aiweekly.co/alerts/openbiorq-ai-agents-cite-wrong-papers-159-of-the-time

查看原文

OpenBioRQ：AI代理有15.9%的概率引用错误论文

相似文章

OpenBioRQ：面向智能体的未解决生物医学研究问题

斯坦福研究人员发现，OpenAI和Google的模型在30%的情况下引用错误来源

@rohanpaul_ai: Anthropic新研究表明，AI智能体在代码方面可能表现卓越，但在生物学领域，它们可能在科学工作开始之前就失败……

研究人员刚刚在医学论文中发现28个虚假AI引用

PaperBench：评估AI复现AI研究的能力

提交意见反馈