OpenBioRQ:AI代理有15.9%的概率引用错误论文

Reddit r/ArtificialInteligence 论文

摘要

一项新的基准论文OpenBioRQ揭示,AI代理很少捏造引用,但常常引用不支持其主张的论文,在生物医学语境中有15.9%的引用不匹配。

AI代理的引用问题实际上并非通常意义上的幻觉。一篇新的基准论文[OpenBioRQ](https://arxiv.org/abs/2606.21959)涵盖了12个领域的12,553个未解决的生物医学研究问题,发现代理很少捏造引用:超过99%的引用URL正确解析。失败更为微妙,大约15.9%的引用链接到实际上不支持其主张的论文。这一区别对构建和评估AI代理至关重要。如果你的基准只检查URL是否解析,你会给系统在引用准确性上打出近乎满分的成绩,而忽略了在生物医学语境中大约每六条引用就有一条存在错误匹配的问题。该基准有意使用开放性的未解决问题作为忠实性和弃权探测,因为无已知答案的问题阻止模型简单地复现预期来源。当前前沿系统的性能表现也令人警醒。Gemini-3-Pro、Opus-4.7和GPT-5.5在最难子集上的表现范围在29%到60%之间,而开放权重模型仅解决了约17%的问题。论文还观察到,在难题上,AI代理倾向于完全停止使用它们的检索工具,这种行为崩溃加剧了引用准确性问题。 --- 更多信息:https://aiweekly.co/alerts/openbiorq-ai-agents-cite-wrong-papers-159-of-the-time
查看原文

相似文章

OpenBioRQ:面向智能体的未解决生物医学研究问题

Hugging Face Daily Papers

OpenBioRQ 是一个包含12,553个未解决生物医学研究问题的新基准,用于测试智能体模型验证来源和避免虚假引用的能力。该基准揭示,当前模型经常链接到错误的论文,并在难题上出现智能体崩溃。

PaperBench:评估AI复现AI研究的能力

OpenAI Blog

OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。