scientific-synthesis

标签

Cards List
#scientific-synthesis

AI代理能否综合科学结论?

arXiv cs.AI · 昨天 缓存

本文介绍了SciConBench,这是一个大规模基准测试,包含9.11K个问题及专家编写的结论,用于评估AI代理从开放领域证据中综合科学结论的能力。研究发现,即使在洁净室环境下,最佳代理的事实F1得分仅为0.337,表明可靠的综合仍然是一个开放挑战。

0 人收藏 0 人点赞
#scientific-synthesis

LLM 需要多少结构?评估 LLM 用于文献计量聚类描述

arXiv cs.CL · 2026-05-26 缓存

本文通过比较六种生成聚类描述的流程,评估文献计量结构是否能改善 LLM 辅助的科学文献综述。结果表明,在文献计量算法定义聚类、LLM 生成可读描述的混合工作流中,LLM 表现最佳。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈