标签
提出了Agentic-Ideation框架,用于高效合成智能体轨迹以训练LLMs进行科学构想,实现了超过10倍的样本效率提升,并优于现有的基于工作流的基线方法。
本文介绍了RQ-Bench,一个用于评估LLM判断科学研究问题新颖性的基准。研究发现,LLM裁判一致认为生成的问题比人类专家认为的更新颖,这引发了对使用LLM进行科学新颖性评估可靠性的担忧。
本文系统评估了针对大型语言模型的人类创造力测试,发现它们无法预测科学构思能力。文章介绍了DRAT,一种结合了聚合思维与发散思维的新测试,能够可靠地预测语言模型的科学构思能力。