active-reasoning

#active-reasoning

Active-GRPO：用于分子优化的自适应模仿与自我改进推理

arXiv cs.LG ↗ · 3天前缓存

Active-GRPO 引入了一个自适应模仿与自我改进推理框架，能够动态决定何时模仿参考、何时强化模型自身的发现以进行分子优化，在 TOMG-Bench-MolOpt 基准上取得了相较于先前方法具有统计显著性的改进。

0 人收藏 0 人点赞

#active-reasoning

arXiv cs.AI ↗ · 2026-05-08 缓存

本文介绍了 BALAR，这是一种无需训练的贝叶斯智能体循环算法，使大型语言模型能够在多轮交互中进行主动推理并提出澄清性问题。该算法在侦探、谜题和临床诊断基准测试中显示出比基线方法显著的性能提升。

0 人收藏 0 人点赞