标签
本文介绍了SciConBench,这是一个大规模基准测试,包含9.11K个问题及专家编写的结论,用于评估AI代理从开放领域证据中综合科学结论的能力。研究发现,即使在洁净室环境下,最佳代理的事实F1得分仅为0.337,表明可靠的综合仍然是一个开放挑战。
本文通过比较六种生成聚类描述的流程,评估文献计量结构是否能改善 LLM 辅助的科学文献综述。结果表明,在文献计量算法定义聚类、LLM 生成可读描述的混合工作流中,LLM 表现最佳。