LEAD:用于大型语言模型的长度高效自适应与动态推理

Hugging Face Daily Papers 论文

摘要

LEAD通过使用正确性-效率权衡的在线校准和自适应的问题特定长度目标,在训练过程中动态调整推理效率,提高了数学推理的准确性并减少了输出长度。

大型推理模型,例如OpenAI o1和DeepSeek-R1,往往随着推理能力的提升而变得愈发冗长。这些膨胀的思维链(CoT)轨迹往往超出了基本问题的实际需求,浪费了计算、延迟和上下文预算。虽然在强化学习过程中引入基于长度的效率奖励提供了一种自然的解决方案,但现有方法仍面临两个基本挑战:正确性与效率之间的最优权衡在训练过程中是非平稳的,并且不同问题之间的内在推理预算差异巨大。依赖静态奖励权重和全局长度约束不可避免地会导致在准确率下降与压缩效果未实现之间做出妥协。为了克服这些限制,我们提出了LEAD(长度高效自适应与动态推理),这是一种用在线自适应机制取代静态启发式方法的方法。LEAD通过使用Potential-Scaled Instability动态校准每一步的正确性-效率权衡,将优化能力定向到信息量最丰富的学习信号。此外,它根据模型自身的正确推演在线估计每个问题的自适应目标长度,并应用对称效率奖励来同时惩罚过度思考与过度压缩。在五个数学推理基准上的评估表明,LEAD在强化学习训练的高效推理方法中实现了最高的准确率和Accuracy-Efficiency Score,同时生成的输出比基础模型大幅缩短。
查看原文
查看缓存全文

缓存时间: 2026/05/15 00:21

论文页面 - LEAD:面向大型语言模型的长度高效自适应动态推理

来源:https://huggingface.co/papers/2605.09806

摘要

LEAD 是一种在训练过程中通过在线校准正确性-效率权衡以及自适应的问题特定长度目标来动态调整推理效率的方法,旨在提升数学推理的准确性与效率。

大型推理模型(https://huggingface.co/papers?q=reasoning%20models),如 OpenAI o1 和 DeepSeek-R1,其推理能力提升时往往变得愈发冗长。这些膨胀的思维链(https://huggingface.co/papers?q=Chain-of-Thought)(CoT)轨迹常常超出问题实际所需,浪费了计算资源、延迟和上下文预算。虽然在强化学习(https://huggingface.co/papers?q=reinforcement%20learning)中引入基于长度的效率奖励(https://huggingface.co/papers?q=length-based%20efficiency%20rewards)是一种自然的补救措施,但现有方法面临两个基本挑战:正确性与效率之间的最优平衡在训练过程中并非静止不变,且不同问题的内在推理预算差异巨大。依赖静态奖励权重和全局长度约束不可避免地会导致准确率下降或压缩率不足之间的折中。为了克服这些限制,我们提出了 LEAD(Length-Efficient Adaptive and Dynamic reasoning,长度高效自适应动态推理),一种用在线自适应当机制替代静态启发式方法的方法。LEAD 通过潜在缩放不稳定性(https://huggingface.co/papers?q=Potential-Scaled%20Instability)在每个步骤动态校准正确性-效率权衡,将优化能力导向信息量最大的学习信号。此外,它基于模型自身的正确 rollout 在线估计每个问题自适应的目标长度,并应用对称效率奖励(https://huggingface.co/papers?q=efficiency%20reward),同时惩罚过度思考与过度压缩。在五个数学推理基准(https://huggingface.co/papers?q=mathematical%20reasoning%20benchmarks)上的评估表明,LEAD 在经 RL 训练的高效推理方法中取得了最高准确率和准确率-效率分数(Accuracy-Efficiency Score)(https://huggingface.co/papers?q=Accuracy-Efficiency%20Score),同时生成长度显著短于基础模型的输出。

查看 arXiv 页面(https://arxiv.org/abs/2605.09806)查看 PDF(https://arxiv.org/pdf/2605.09806)GitHub2(https://github.com/CrazyMint/LEAD)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.09806)

在你的 agent 中获取这篇论文:

hf papers read 2605\.09806

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.09806 以在此页面链接它。

引用此论文的数据集0

没有数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.09806 以在此页面链接它。

引用此论文的 Space0

没有 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.09806 以在此页面链接它。

包含此论文的收藏集1

相似文章

大型学习模型中增强且高效的推理

arXiv cs.AI

本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。

大规模推理模型(尚)不是多语言潜在推理器

arXiv cs.CL

本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。