@rohanpaul_ai: 一篇关于推理模型训练后如何改进的入门论文表明更好的推理模型较少依赖原始……

X AI KOLs Following 2026/06/07 18:05 论文

reasoning-models training-data post-training feedback-signals checkable-evidence research primer

摘要

这篇入门论文探讨了推理模型在训练后如何改进，认为有效的推理数据更多地依赖于可检查的训练证据而非原始数据量。它根据验证方法对推理数据进行分类，并强调保留混乱的智能体数据以获取学习信号。

一篇关于推理模型训练后如何改进的入门论文表明更好的推理模型较少依赖原始数据量，而更多依赖可检查的训练证据。推理数据并非简单的问答对。有用的部分往往是那些说明答案、步骤、工具操作或完整尝试为何好或不好的反馈。提示和响应告诉你模型说了什么，但并没有说明那个答案为何变得可学习、是哪个评判者认可了它、哪些失败被隐藏了、或者该能力是否已存在于基础模型中。核心思想是将每个训练示例描述为一条记录，包含任务、模型行为、检查信号以及关于其来源的元数据。作者根据推理数据如何被检查来对其进行分类，例如数学和代码的精确规则检查、使用工具的智能体的环境检查，以及在没有精确检查器时的人类或模型判断。他们还解释了常见假设为何失效，因为长推理轨迹可能是伪造的，较难的示例可能对某些模型毫无用处，而更大的数据集仍可能遗漏重要的覆盖范围。关键点在于智能体数据应保留混乱：失败的操作、重试、恢复、状态差异和终端检查，因为学习信号往往就在其中。 ---- 链接 – arxiv.org/abs/2606.02113 标题：“训练后推理数据入门：它们对运作方式的认知”

查看原文

查看缓存全文

缓存时间: 2026/06/08 21:28

一篇关于推理模型训练后如何改进的入门论文

表明更好的推理模型更少依赖原始数据规模，更多依赖可验证的训练证据。

推理数据并非简单的问答对。有用的部分往往是那些指出答案、步骤、工具操作或整次尝试为何好或为何不好的反馈。

一条提示词和对应的回答只能告诉你模型说了什么，但无法说明：这个答案为什么变成了可学习的、是哪个评判机制认可了它、哪些失败被隐藏了，以及该技能是否已经存在于基础模型之中。

核心思路是将每个训练示例描述为一条记录，其中包含任务、模型行为、验证信号，以及关于该示例来源的元数据。

作者按验证方式对推理数据进行分类：例如数学和代码场景下基于规则的精确验证、智能体使用工具时的环境验证，以及在没有精确验证器时的人工或模型评判。

他们还解释了常见假设为何不成立——因为长的推理链可能是虚假的、更难的例子对某些模型可能毫无用处、而更大的数据集仍可能遗漏重要的覆盖范围。

关键在于：智能体数据应当保留混乱——失败的动作、重试、恢复、状态差异以及最终检查——因为学习信号往往就在其中。

链接 – arxiv.org/abs/2606.02113

标题：“A Primer in Post-Training Reasoning Data: What They Know About How It Works”

@rohanpaul_ai: 一篇关于推理模型训练后如何改进的入门论文表明更好的推理模型较少依赖原始……

一篇关于推理模型训练后如何改进的入门论文

相似文章

@dair_ai：关于后训练推理数据的优秀入门指南。（收藏它）这是首批将分散的后……

@rohanpaul_ai: 这篇论文揭示了AI推理中的一个奇怪弱点：模型可以解决数学问题，却无法判断推理过程。令人不安的是…

@rohanpaul_ai: 论文表明，当不丢弃任何过往信息时，智能体在长时间跨度内的推理能力更强。保留所有过往…

推理监督的哪些特性与下游模型质量的提升相关？

后训练如何塑造生物学推理模型

提交意见反馈