标签
ACTS(代理式思维链引导)将LLM推理控制形式化为马尔可夫决策过程,其中控制器代理在推理过程中使用推理策略和引导短语自适应地引导冻结的推理器。该方法在显著节省token的同时实现了与完全思考模型相当的准确率,支持可控的准确率-效率权衡。
本研究介绍了一种技术,通过使用阻尼Runge-Kutta子步骤,在推理时循环冻结的、现成的Transformer检查点,将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算,在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。
OptiLLM是一个开源代理,通过在推理时增加额外计算,将任意LLM的准确率提升2-10倍,使用了多智能体交叉验证和蒙特卡洛树搜索等技术。
OpenAI 提出证据表明,像 o1 这样的推理模型在获得更多推理时计算来进行更深入思考时,对对抗攻击的抵抗力会增强。这项研究表明,增加计算量可以降低多种任务类型(包括数学、事实性和对抗性图像)的攻击成功率,尽管仍存在一些显著的例外。