立场:不要只‘Fix it in Post’:AI科学必须研究训练动态

arXiv cs.AI 论文

摘要

这篇立场论文认为,对AI的科学理解必须超越事后分析,转而研究塑造模型行为的训练动态,这对于预测、干预和设计训练过程以获取期望特性(如能力和安全性)具有重要意义。

arXiv:2606.06533v1 公告类型:新 摘要:对AI的科学理解意味着什么?模型并非静态对象——它们是受数据、目标、架构和优化动态塑造的、随时间演变的快照。然而,许多AI研究将模型视为固定产物,分析训练后的行为,却不追问它们为何出现。这篇立场论文认为,AI科学必须超越事后修复,转而研究产生模型行为的训练动态。这样的科学应支持逐步增强的理解形式:从早期训练信号预测结果,在轨迹偏离时进行干预,并最终设计出更可靠地产生期望特性的训练过程。标度律已使损失预测成为常规;挑战在于将这一成功扩展到能力、偏见、鲁棒性和安全相关行为。我们基于科学史与科学哲学阐释了此类理论的要求,审视了机械可解释性、公平性、记忆化与简单性偏好的进展,并提出了具体的开放问题。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:13

# 立场:不要只做“后期修补”——AI科学必须研究训练动态
来源:https://arxiv.org/abs/2606.06533
查看PDF(https://arxiv.org/pdf/2606.06533)

> 摘要:对AI形成科学理解意味着什么?模型并非静态对象;它们是时间演变过程的快照,其形态由数据、目标、架构和优化动态共同塑造。然而,大量的AI研究将模型视为固定产物,仅在训练后分析行为,却不追问这些行为为何产生。本立场论文主张,AI科学必须超越事后修补,转而研究产生模型行为的训练动态。这样的科学应支持逐步增强的理解形式:从早期训练信号预测结果,在训练轨迹偏离时进行干预,并最终设计出能更可靠地产生期望属性的训练流程。规模定律已使损失预测成为常规;挑战在于将这一成功扩展到能力、偏见、鲁棒性及安全相关行为。我们基于科学史与科学哲学,阐述了这类理论应满足的要求,审视了机械可解释性、公平性、记忆化与简单性偏好方面的进展,并识别出具体的开放性问题。

## 提交历史

来自:Stella Biderman [查看电子邮件](https://arxiv.org/show-email/12356afe/2606.06533) **\[v1\]** 2026年6月3日星期三 17:58:14 UTC(97 KB)

相似文章

交互式评估需要设计科学

Hugging Face Daily Papers

本立场论文认为,交互式AI评估应被视为一种设计科学范式,提出了用于通过轨迹评估动态系统行为的双轴分类法和报告标准。