标签
CAPS 引入了一个级联自适应选择框架,用于高效并行推理,在多个大语言模型基准测试中,将验证器计算成本降低了 75% 以上,同时性能优于现有的成对验证方法。
HeavySkill 是一个新框架,通过并行推理和总结阶段,将复杂推理内化为模型的内在技能,其表现优于传统的编排方法,并通过强化学习实现了大语言模型的自我演进。
STOP 方法利用 KV-cache 状态提前剪枝注定失败的推理轨迹,token 用量降 70%,在 1.5B–20B 模型上提升 AIME 与 GPQA 准确率。
本文提出了 STOP(SuperTOken for Pruning),一个系统框架,用于在大型推理模型的并行推理中早期剪枝低效推理路径。该方法在 1.5B 到 20B 参数的模型中实现了优异的效率和效果,在固定计算预算下将 GPT-OSS-20B 在 AIME25 上的准确率从 84% 提升到 90%。