LEAD：用于大型语言模型的长度高效自适应与动态推理

Hugging Face Daily Papers 2026/05/10 00:00 论文

reasoning chain-of-thought efficiency reinforcement-learning language-models adaptive-reasoning

摘要

LEAD通过使用正确性-效率权衡的在线校准和自适应的问题特定长度目标，在训练过程中动态调整推理效率，提高了数学推理的准确性并减少了输出长度。

大型推理模型，例如OpenAI o1和DeepSeek-R1，往往随着推理能力的提升而变得愈发冗长。这些膨胀的思维链（CoT）轨迹往往超出了基本问题的实际需求，浪费了计算、延迟和上下文预算。虽然在强化学习过程中引入基于长度的效率奖励提供了一种自然的解决方案，但现有方法仍面临两个基本挑战：正确性与效率之间的最优权衡在训练过程中是非平稳的，并且不同问题之间的内在推理预算差异巨大。依赖静态奖励权重和全局长度约束不可避免地会导致在准确率下降与压缩效果未实现之间做出妥协。为了克服这些限制，我们提出了LEAD（长度高效自适应与动态推理），这是一种用在线自适应机制取代静态启发式方法的方法。LEAD通过使用Potential-Scaled Instability动态校准每一步的正确性-效率权衡，将优化能力定向到信息量最丰富的学习信号。此外，它根据模型自身的正确推演在线估计每个问题的自适应目标长度，并应用对称效率奖励来同时惩罚过度思考与过度压缩。在五个数学推理基准上的评估表明，LEAD在强化学习训练的高效推理方法中实现了最高的准确率和Accuracy-Efficiency Score，同时生成的输出比基础模型大幅缩短。

查看原文

查看缓存全文

缓存时间: 2026/05/15 00:21

论文页面 - LEAD：面向大型语言模型的长度高效自适应动态推理

来源：https://huggingface.co/papers/2605.09806

摘要

LEAD 是一种在训练过程中通过在线校准正确性-效率权衡以及自适应的问题特定长度目标来动态调整推理效率的方法，旨在提升数学推理的准确性与效率。

大型推理模型（https://huggingface.co/papers?q=reasoning%20models），如 OpenAI o1 和 DeepSeek-R1，其推理能力提升时往往变得愈发冗长。这些膨胀的思维链（https://huggingface.co/papers?q=Chain-of-Thought）（CoT）轨迹常常超出问题实际所需，浪费了计算资源、延迟和上下文预算。虽然在强化学习（https://huggingface.co/papers?q=reinforcement%20learning）中引入基于长度的效率奖励（https://huggingface.co/papers?q=length-based%20efficiency%20rewards）是一种自然的补救措施，但现有方法面临两个基本挑战：正确性与效率之间的最优平衡在训练过程中并非静止不变，且不同问题的内在推理预算差异巨大。依赖静态奖励权重和全局长度约束不可避免地会导致准确率下降或压缩率不足之间的折中。为了克服这些限制，我们提出了 LEAD（Length-Efficient Adaptive and Dynamic reasoning，长度高效自适应动态推理），一种用在线自适应当机制替代静态启发式方法的方法。LEAD 通过潜在缩放不稳定性（https://huggingface.co/papers?q=Potential-Scaled%20Instability）在每个步骤动态校准正确性-效率权衡，将优化能力导向信息量最大的学习信号。此外，它基于模型自身的正确 rollout 在线估计每个问题自适应的目标长度，并应用对称效率奖励（https://huggingface.co/papers?q=efficiency%20reward），同时惩罚过度思考与过度压缩。在五个数学推理基准（https://huggingface.co/papers?q=mathematical%20reasoning%20benchmarks）上的评估表明，LEAD 在经 RL 训练的高效推理方法中取得了最高准确率和准确率-效率分数（Accuracy-Efficiency Score）（https://huggingface.co/papers?q=Accuracy-Efficiency%20Score），同时生成长度显著短于基础模型的输出。

查看 arXiv 页面（https://arxiv.org/abs/2605.09806）查看 PDF（https://arxiv.org/pdf/2605.09806）GitHub2（https://github.com/CrazyMint/LEAD）加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.09806）

在你的 agent 中获取这篇论文：

hf papers read 2605\.09806

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.09806 以在此页面链接它。

引用此论文的数据集0

没有数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.09806 以在此页面链接它。

引用此论文的 Space0

没有 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.09806 以在此页面链接它。

LEAD：用于大型语言模型的长度高效自适应与动态推理

论文页面 - LEAD：面向大型语言模型的长度高效自适应动态推理

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集1

相似文章

大型学习模型中增强且高效的推理

强化学习能否教会大型语言模型进行长程推理？表达力是关键

大规模推理模型（尚）不是多语言潜在推理器

LaTER：通过潜在探索与显式验证实现高效的测试时推理

通过具有效率意识的变分后验引导实现高效的大语言模型推理

提交意见反馈