立场:不要只‘Fix it in Post’:AI科学必须研究训练动态
摘要
这篇立场论文认为,对AI的科学理解必须超越事后分析,转而研究塑造模型行为的训练动态,这对于预测、干预和设计训练过程以获取期望特性(如能力和安全性)具有重要意义。
arXiv:2606.06533v1 公告类型:新
摘要:对AI的科学理解意味着什么?模型并非静态对象——它们是受数据、目标、架构和优化动态塑造的、随时间演变的快照。然而,许多AI研究将模型视为固定产物,分析训练后的行为,却不追问它们为何出现。这篇立场论文认为,AI科学必须超越事后修复,转而研究产生模型行为的训练动态。这样的科学应支持逐步增强的理解形式:从早期训练信号预测结果,在轨迹偏离时进行干预,并最终设计出更可靠地产生期望特性的训练过程。标度律已使损失预测成为常规;挑战在于将这一成功扩展到能力、偏见、鲁棒性和安全相关行为。我们基于科学史与科学哲学阐释了此类理论的要求,审视了机械可解释性、公平性、记忆化与简单性偏好的进展,并提出了具体的开放问题。
查看缓存全文
缓存时间: 2026/06/08 09:13
# 立场:不要只做“后期修补”——AI科学必须研究训练动态 来源:https://arxiv.org/abs/2606.06533 查看PDF(https://arxiv.org/pdf/2606.06533) > 摘要:对AI形成科学理解意味着什么?模型并非静态对象;它们是时间演变过程的快照,其形态由数据、目标、架构和优化动态共同塑造。然而,大量的AI研究将模型视为固定产物,仅在训练后分析行为,却不追问这些行为为何产生。本立场论文主张,AI科学必须超越事后修补,转而研究产生模型行为的训练动态。这样的科学应支持逐步增强的理解形式:从早期训练信号预测结果,在训练轨迹偏离时进行干预,并最终设计出能更可靠地产生期望属性的训练流程。规模定律已使损失预测成为常规;挑战在于将这一成功扩展到能力、偏见、鲁棒性及安全相关行为。我们基于科学史与科学哲学,阐述了这类理论应满足的要求,审视了机械可解释性、公平性、记忆化与简单性偏好方面的进展,并识别出具体的开放性问题。 ## 提交历史 来自:Stella Biderman [查看电子邮件](https://arxiv.org/show-email/12356afe/2606.06533) **\[v1\]** 2026年6月3日星期三 17:58:14 UTC(97 KB)
相似文章
立场:人工智能需要元智能——论元认知人工智能的必要性
本文立场是,将元认知作为设计原则可以构建更准确、更安全、更高效的人工智能系统,并通过联邦学习案例研究及一个实验软件框架展示了这一概念。
交互式评估需要设计科学
本立场论文认为,交互式AI评估应被视为一种设计科学范式,提出了用于通过轨迹评估动态系统行为的双轴分类法和报告标准。
@BetaTomorrow: https://x.com/BetaTomorrow/status/2066435380623385000
该线程讨论了AI中的'Jagged Intelligence'概念,将其视为AI学习是一个不适定逆问题的结果,并认为像脚手架和验证这样的外部稳定器是必不可少的。
@DataScienceDojo:大多数AI代理一遍又一遍地在相同任务上失败。不是因为模型不好,而是因为没人告诉它该如何工作……
一篇新论文介绍了Self-Harness,一种让AI代理通过分析自身失败、生成修复方案并测试它们来自我改进的方法,从而将通过率提高了最多21个百分点。
@IntuitMachine: https://x.com/IntuitMachine/status/2058141021842571510
本文认为,在生产AI中,评估是最难的问题,而非生成,并将AI的自我知识分解为校准、判别和表达,这对系统设计具有启示意义。