标签
ReM-MoA 引入了一种记忆增强的混合智能体框架,通过排序推理记忆和策划的多样化记忆路由来维持扩展,在五个推理基准测试中优于之前的 MoA 变体。
Sakana AI 推出 AB-MCTS,一种推理时缩放算法,使多个前沿 AI 模型(Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528)协同工作,在 ARC-AGI-2 基准测试中显著优于单个模型。
本文将LLM推理预算分配形式化为一个约束优化问题,提出CLEAR方法,将资源从低效用查询重新分配到接近涌现阈值的查询,在预算紧张的情况下实现了高达3倍的准确率提升。
本文提出了一种方法,利用单次带标签验证集采样中获得的廉价统计量,预测语言模型的最佳N选一推理扩展增益。一个仅有三个核心特征的紧凑预测器与真实增益的斯皮尔曼相关系数ρ=0.90,使得在昂贵的奖励模型评分之前能够筛选配置。
一篇新论文表明,使用一个弱模型,通过 k=8 个提议和 critic-comparator 选择循环,可以在 SWE-bench Verified 上匹配前沿模型的性能,达到 76.4% 的准确率。关键见解是,正确的补丁通常已经存在于弱模型的前 k 个候选补丁中,挑战在于如何利用执行验证进行有效选择。
本文研究了以验证器为后盾的委员会搜索作为推理语言模型的推理时增强方法,表明在像 SWE-bench Verified 这样的代码修复任务上,弱推理模型委员会可以匹配强得多的模型的性能。
本文提出了测试时个性化(TTP),这是一种通过候选采样和基于奖励的选择来扩展推理时计算,从而提升大语言模型(LLM)个性化能力的框架。该研究诊断了标准奖励模型中的失效模式,并提出了一种概率个性化奖励模型以缓解这些问题。
本文引入了分布过程奖励模型,利用条件最优传输对 PRM 进行校准,以提高推理时缩放(inference-time scaling)中成功概率估计的准确性。该研究在 MATH-500 和 AIME 等数学推理基准测试中展示了改进的校准效果和下游性能。
RAO(递归智能体优化)是一种端到端强化学习方法,用于训练大语言模型智能体生成、协调并委托给自身的递归副本(这些副本本身也可以生成其他智能体),将递归推理转化为可学习的能力。
本文介绍了递归语言模型(Recursive Language Models, RLMs),这是一种推理策略,使大型语言模型(LLMs)能够通过将任意长的提示视为外部环境,并在提示片段上递归调用自身来处理这些提示。RLMs可以处理超出上下文窗口两个数量级的输入,并且在长上下文任务上以可比的成本优于基础LLMs。