scientific-synthesis

#scientific-synthesis

AI代理能否综合科学结论？

arXiv cs.AI ↗ · 2026-06-11 缓存

本文介绍了SciConBench，这是一个大规模基准测试，包含9.11K个问题及专家编写的结论，用于评估AI代理从开放领域证据中综合科学结论的能力。研究发现，即使在洁净室环境下，最佳代理的事实F1得分仅为0.337，表明可靠的综合仍然是一个开放挑战。

0 人收藏 0 人点赞

#scientific-synthesis

arXiv cs.CL ↗ · 2026-05-26 缓存

本文通过比较六种生成聚类描述的流程，评估文献计量结构是否能改善 LLM 辅助的科学文献综述。结果表明，在文献计量算法定义聚类、LLM 生成可读描述的混合工作流中，LLM 表现最佳。

0 人收藏 0 人点赞