LEAD:用于大型语言模型的长度高效自适应与动态推理
摘要
LEAD通过使用正确性-效率权衡的在线校准和自适应的问题特定长度目标,在训练过程中动态调整推理效率,提高了数学推理的准确性并减少了输出长度。
查看缓存全文
缓存时间: 2026/05/15 00:21
论文页面 - LEAD:面向大型语言模型的长度高效自适应动态推理
来源:https://huggingface.co/papers/2605.09806
摘要
LEAD 是一种在训练过程中通过在线校准正确性-效率权衡以及自适应的问题特定长度目标来动态调整推理效率的方法,旨在提升数学推理的准确性与效率。
大型推理模型(https://huggingface.co/papers?q=reasoning%20models),如 OpenAI o1 和 DeepSeek-R1,其推理能力提升时往往变得愈发冗长。这些膨胀的思维链(https://huggingface.co/papers?q=Chain-of-Thought)(CoT)轨迹常常超出问题实际所需,浪费了计算资源、延迟和上下文预算。虽然在强化学习(https://huggingface.co/papers?q=reinforcement%20learning)中引入基于长度的效率奖励(https://huggingface.co/papers?q=length-based%20efficiency%20rewards)是一种自然的补救措施,但现有方法面临两个基本挑战:正确性与效率之间的最优平衡在训练过程中并非静止不变,且不同问题的内在推理预算差异巨大。依赖静态奖励权重和全局长度约束不可避免地会导致准确率下降或压缩率不足之间的折中。为了克服这些限制,我们提出了 LEAD(Length-Efficient Adaptive and Dynamic reasoning,长度高效自适应动态推理),一种用在线自适应当机制替代静态启发式方法的方法。LEAD 通过潜在缩放不稳定性(https://huggingface.co/papers?q=Potential-Scaled%20Instability)在每个步骤动态校准正确性-效率权衡,将优化能力导向信息量最大的学习信号。此外,它基于模型自身的正确 rollout 在线估计每个问题自适应的目标长度,并应用对称效率奖励(https://huggingface.co/papers?q=efficiency%20reward),同时惩罚过度思考与过度压缩。在五个数学推理基准(https://huggingface.co/papers?q=mathematical%20reasoning%20benchmarks)上的评估表明,LEAD 在经 RL 训练的高效推理方法中取得了最高准确率和准确率-效率分数(Accuracy-Efficiency Score)(https://huggingface.co/papers?q=Accuracy-Efficiency%20Score),同时生成长度显著短于基础模型的输出。
查看 arXiv 页面(https://arxiv.org/abs/2605.09806)查看 PDF(https://arxiv.org/pdf/2605.09806)GitHub2(https://github.com/CrazyMint/LEAD)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.09806)
在你的 agent 中获取这篇论文:
hf papers read 2605\.09806
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.09806 以在此页面链接它。
引用此论文的数据集0
没有数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.09806 以在此页面链接它。
引用此论文的 Space0
没有 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.09806 以在此页面链接它。
包含此论文的收藏集1
相似文章
大型学习模型中增强且高效的推理
本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。
强化学习能否教会大型语言模型进行长程推理?表达力是关键
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
大规模推理模型(尚)不是多语言潜在推理器
本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。
LaTER:通过潜在探索与显式验证实现高效的测试时推理
本文介绍了 LaTER,一种两阶段推理范式,它将潜在探索与显式思维链(Chain-of-Thought)验证相结合,从而在保持准确率的同时,降低大型语言模型的标记使用量并提升效率。
通过具有效率意识的变分后验引导实现高效的大语言模型推理
本文介绍了 VPG-EA 框架,该框架利用变分推断和后验引导,通过解决思维链生成中的“过度思考”现象,提高了大语言模型的推理效率。