inference-time-scaling

#inference-time-scaling

ReM-MoA：推理记忆维持混合智能体扩展

arXiv cs.AI ↗ · 5天前缓存

ReM-MoA 引入了一种记忆增强的混合智能体框架，通过排序推理记忆和策划的多样化记忆路由来维持扩展，在五个推理基准测试中优于之前的 MoA 变体。

0 人收藏 0 人点赞

#inference-time-scaling

Sakana Fugu（三分钟阅读）

TLDR AI ↗ · 2026-06-22 缓存

Sakana AI 推出 AB-MCTS，一种推理时缩放算法，使多个前沿 AI 模型（Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528）协同工作，在 ARC-AGI-2 基准测试中显著优于单个模型。

0 人收藏 0 人点赞

#inference-time-scaling

推理的影子价格：LLM最优预算分配的经济学视角

arXiv cs.AI ↗ · 2026-06-03 缓存

本文将LLM推理预算分配形式化为一个约束优化问题，提出CLEAR方法，将资源从低效用查询重新分配到接近涌现阈值的查询，在预算紧张的情况下实现了高达3倍的准确率提升。

0 人收藏 0 人点赞

#inference-time-scaling

从带标签验证集输出统计预测推理时扩展增益

arXiv cs.CL ↗ · 2026-06-03 缓存

本文提出了一种方法，利用单次带标签验证集采样中获得的廉价统计量，预测语言模型的最佳N选一推理扩展增益。一个仅有三个核心特征的紧凑预测器与真实增益的斯皮尔曼相关系数ρ=0.90，使得在昂贵的奖励模型评分之前能够筛选配置。

0 人收藏 0 人点赞

#inference-time-scaling

@dair_ai: 值得一读的新论文。GPT-5.4 nano 加上 critic-comparator 编排循环在 SWE-bench Verified 上达到 76.4%，匹配…

X AI KOLs Following ↗ · 2026-05-18 缓存

一篇新论文表明，使用一个弱模型，通过 k=8 个提议和 critic-comparator 选择循环，可以在 SWE-bench Verified 上匹配前沿模型的性能，达到 76.4% 的准确率。关键见解是，正确的补丁通常已经存在于弱模型的前 k 个候选补丁中，挑战在于如何利用执行验证进行有效选择。

0 人收藏 0 人点赞

#inference-time-scaling

作为弱推理模型助推器的智能体系统

arXiv cs.AI ↗ · 2026-05-15 缓存

本文研究了以验证器为后盾的委员会搜索作为推理语言模型的推理时增强方法，表明在像 SWE-bench Verified 这样的代码修复任务上，弱推理模型委员会可以匹配强得多的模型的性能。

0 人收藏 0 人点赞

#inference-time-scaling

测试时个性化：针对缩放失败的一种诊断框架与概率修正方法

arXiv cs.LG ↗ · 2026-05-13 缓存

本文提出了测试时个性化（TTP），这是一种通过候选采样和基于奖励的选择来扩展推理时计算，从而提升大语言模型（LLM）个性化能力的框架。该研究诊断了标准奖励模型中的失效模式，并提出了一种概率个性化奖励模型以缓解这些问题。

0 人收藏 0 人点赞

#inference-time-scaling

分布过程奖励模型：通过条件最优传输校准未来奖励的预测

arXiv cs.LG ↗ · 2026-05-11 缓存

本文引入了分布过程奖励模型，利用条件最优传输对 PRM 进行校准，以提高推理时缩放（inference-time scaling）中成功概率估计的准确性。该研究在 MATH-500 和 AIME 等数学推理基准测试中展示了改进的校准效果和下游性能。

0 人收藏 0 人点赞

#inference-time-scaling

@apurvasgandhi: 子代理是一个有前景的推理时间缩放原语：• 扩展智能体的工作记忆• 分而治之解决难题• 通过并行执行更快地解决问题…

X AI KOLs Timeline ↗ · 2026-05-08

RAO（递归智能体优化）是一种端到端强化学习方法，用于训练大语言模型智能体生成、协调并委托给自身的递归副本（这些副本本身也可以生成其他智能体），将递归推理转化为可学习的能力。

0 人收藏 0 人点赞

#inference-time-scaling

递归语言模型

Papers with Code Trending ↗ · 2025-12-31 缓存

本文介绍了递归语言模型（Recursive Language Models, RLMs），这是一种推理策略，使大型语言模型（LLMs）能够通过将任意长的提示视为外部环境，并在提示片段上递归调用自身来处理这些提示。RLMs可以处理超出上下文窗口两个数量级的输入，并且在长上下文任务上以可比的成本优于基础LLMs。

0 人收藏 0 人点赞

inference-time-scaling

提交意见反馈