立场：不要只‘Fix it in Post’：AI科学必须研究训练动态

arXiv cs.AI 2026/06/08 04:00 论文

ai-science training-dynamics position-paper ai-research safety mechanistic-interpretability

摘要

这篇立场论文认为，对AI的科学理解必须超越事后分析，转而研究塑造模型行为的训练动态，这对于预测、干预和设计训练过程以获取期望特性（如能力和安全性）具有重要意义。

arXiv:2606.06533v1 公告类型：新摘要：对AI的科学理解意味着什么？模型并非静态对象——它们是受数据、目标、架构和优化动态塑造的、随时间演变的快照。然而，许多AI研究将模型视为固定产物，分析训练后的行为，却不追问它们为何出现。这篇立场论文认为，AI科学必须超越事后修复，转而研究产生模型行为的训练动态。这样的科学应支持逐步增强的理解形式：从早期训练信号预测结果，在轨迹偏离时进行干预，并最终设计出更可靠地产生期望特性的训练过程。标度律已使损失预测成为常规；挑战在于将这一成功扩展到能力、偏见、鲁棒性和安全相关行为。我们基于科学史与科学哲学阐释了此类理论的要求，审视了机械可解释性、公平性、记忆化与简单性偏好的进展，并提出了具体的开放问题。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:13

# 立场：不要只做“后期修补”——AI科学必须研究训练动态
来源：https://arxiv.org/abs/2606.06533
查看PDF（https://arxiv.org/pdf/2606.06533）

> 摘要：对AI形成科学理解意味着什么？模型并非静态对象；它们是时间演变过程的快照，其形态由数据、目标、架构和优化动态共同塑造。然而，大量的AI研究将模型视为固定产物，仅在训练后分析行为，却不追问这些行为为何产生。本立场论文主张，AI科学必须超越事后修补，转而研究产生模型行为的训练动态。这样的科学应支持逐步增强的理解形式：从早期训练信号预测结果，在训练轨迹偏离时进行干预，并最终设计出能更可靠地产生期望属性的训练流程。规模定律已使损失预测成为常规；挑战在于将这一成功扩展到能力、偏见、鲁棒性及安全相关行为。我们基于科学史与科学哲学，阐述了这类理论应满足的要求，审视了机械可解释性、公平性、记忆化与简单性偏好方面的进展，并识别出具体的开放性问题。

## 提交历史

来自：Stella Biderman [查看电子邮件](https://arxiv.org/show-email/12356afe/2606.06533) **\[v1\]** 2026年6月3日星期三 17:58:14 UTC（97 KB）

立场：不要只‘Fix it in Post’：AI科学必须研究训练动态

相似文章

立场：人工智能需要元智能——论元认知人工智能的必要性

交互式评估需要设计科学

@BetaTomorrow: https://x.com/BetaTomorrow/status/2066435380623385000

@DataScienceDojo：大多数AI代理一遍又一遍地在相同任务上失败。不是因为模型不好，而是因为没人告诉它该如何工作……

@IntuitMachine: https://x.com/IntuitMachine/status/2058141021842571510

提交意见反馈