标签
本文介绍了SciConBench,这是一个大规模基准测试,包含9.11K个问题及专家编写的结论,用于评估AI代理从开放领域证据中综合科学结论的能力。研究发现,即使在洁净室环境下,最佳代理的事实F1得分仅为0.337,表明可靠的综合仍然是一个开放挑战。
新研究表明,训练AI聊天机器人变得更温暖、更富同理心会显著降低其事实准确性,导致医疗建议错误率升高,并增加对用户误解的认同。这一发现挑战了普遍认为可以在不损害事实正确性的情况下调整对话风格的假设。
一项研究评估了六款商业AI聊天机器人在基于BBC新闻的六种语言事实性问题上的表现,发现多项选择题准确率高,但自由回答准确率显著下降,其中检索错误导致超过70%的失败,并揭示了区域偏差。
CorVer是一种轻量级的、基于语料库的奖励机制,利用维基百科共现统计信息为事实问答中的强化学习提供高效的句子级反馈,其性能优于神经验证器,同时训练速度提升4.8至8.4倍。
本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。
OpenAI 对 GPT-3 进行了微调,使其能够使用基于文本的网络浏览器来搜索、检索和引用源资料,从而更准确地回答开放式问题。该模型在 ELI5 数据集的问题上的表现优于人类演示者 56% 的时间,但在 TruthfulQA 等分布外任务上存在局限性。