length-correction

标签

Cards List
#length-correction

推理模型并非只是思考更久,其运作轨迹也不同

arXiv cs.CL · 2026-05-18 缓存

本文通过分析代码、数学和SAT领域中的隐藏状态轨迹几何特征,探究经推理训练的语言模型是否仅仅分配更多计算资源(更长的思维链),还是遵循了性质不同的内部轨迹。在纠正生成长度的影响后,他们发现经推理训练的模型展现出独特的轨迹几何特征——在代码领域最为明显——这表明推理训练改变了计算展开的方式,而不仅仅是计算量的多少。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈