新技术让AI模型边学边瘦、边学快
摘要
MIT CSAIL及其他机构的研究人员推出了CompreSSM技术,该技术通过在训练早期移除不必要的组件来压缩状态空间AI模型,从而在不牺牲性能的情况下实现更快的训练速度和更小的模型体积。
<p dir="ltr" id="docs-internal-guid-ad8ced0a-7fff-53ba-4f4a-20baf55b50ab">训练大型人工智能模型成本高昂,不仅体现在金钱上,还包括时间、能源和计算资源。传统上,要获得一个更小、更快的模型,要么先训练一个庞大的模型再将其精简,要么从零开始训练一个小模型但接受较弱的性能。</p><p dir="ltr" id="docs-internal-guid-ad8ced0a-7fff-53ba-4f4a-20baf55b50ab">MIT计算机科学与人工智能实验室(CSAIL)、Max Planck智能系统研究所、欧洲学习与智能系统实验室(ELLIS)、ETH以及Liquid AI的研究人员现已开发出一种新方法,完全规避了这一权衡,在训练过程中而非训练结束后压缩模型。</p><p dir="ltr">这项名为<a href="https://arxiv.org/abs/2510.02823" target="_blank">CompreSSM</a>的技术针对的是一类称为状态空间模型的AI架构,这类模型支撑着从语言处理到音频生成和机器人技术等各种应用。研究人员借鉴控制理论中的数学工具,能够在训练早期识别出模型中哪些部分在发挥作用、哪些是累赘,并精准地移除不必要的组件。</p><p dir="ltr">"这本质上是一种让模型在训练过程中变得更小、更快的技术,"电气工程与计算机科学博士生、CSAIL成员、论文第一作者Makram Chahine说。"在学习的同时,它们也在淘汰对自身发展无用的部分。"</p><p dir="ltr">关键洞见在于,这些模型中不同组件的相对重要性在训练初期就出人意料地稳定下来。研究团队使用一种称为Hankel奇异值的数学量来衡量每个内部状态对模型整体行为的贡献,他们证明仅需约10%的训练过程就能可靠地排序哪些维度重要、哪些不重要。一旦确定这些排序,较不重要的组件就可以安全舍弃,剩余90%的训练过程就能以更小模型的速度进行。</p><p dir="ltr">"这项工作的令人兴奋之处在于,它将压缩从事后考虑转变为学习过程本身的一部分,"资深作者、MIT教授兼CSAIL主任Daniela Rus说。"不再是先训练一个大模型再想办法缩小它,CompreSSM让模型在学习过程中发现自己的高效结构。这是构建AI系统的一种根本性不同的思维方式。"</p><p dir="ltr">结果令人瞩目。在图像分类基准测试中,压缩后的模型保持了与完整模型几乎相同的准确率,同时训练速度提升了1.5倍。一个压缩至约原始状态维度四分之一的模型在CIFAR-10基准上达到85.7%的准确率,而从头训练的小型模型仅为81.8%。在Mamba这一最广泛使用的状态空间架构上,该方法实现了约4倍的训练加速,将128维模型压缩至约12维,同时保持竞争力性能。</p><p dir="ltr">"你获得了大模型的性能,因为在预热阶段捕获了大部分复杂动态,然后只保留最有用的状态,"Chahine说。"模型仍然能够比从头开始训练小模型达到更高的水平。"</p><p dir="ltr">CompreSSM与现有方法的区别在于其理论基础。传统的剪枝方法先训练完整模型再事后剥离参数,意味着你仍需承担训练大模型的全部计算成本。知识蒸馏是另一种流行技术,需要将一个大型"教师"模型训练完成,再在其上训练一个较小的"学生"模型,基本上使训练工作量翻倍。CompreSSM通过在训练中途做出有依据的压缩决策,避免了这两种成本。</p><p dir="ltr">研究团队将CompreSSM与这两种替代方案进行了正面比较。与Hankel核范数正则化——一种最近提出的用于促进紧凑状态空间模型的谱技术——相比,CompreSSM速度提升超过40倍,同时实现了更高的准确率。正则化方法使训练速度降低约16倍,因为它需要在每个梯度步进行昂贵的特征值计算,即便如此,所得模型性能仍不及前者。在CIFAR-10上与知识蒸馏相比,CompressSM在高度压缩模型方面具有明显优势:在较小的状态维度下,蒸馏模型出现显著准确率下降,而CompreSSM压缩模型保持接近完整的性能。而且由于蒸馏需要在每个训练步骤中对教师和学生模型都进行前向传播,即使其较小的学生模型训练速度也慢于完整基线。</p><p dir="ltr">研究人员从数学上证明了,得益于Weyl定理的应用,单个模型状态的重要性在训练过程中平滑变化,并经验性地证明了这些状态的相对排序保持稳定。这些发现共同让实践者确信,早期被识别为可忽略的那些维度不会突然在后期变得关键。</p><p dir="ltr">该方法还附带了一个务实的安全保障。如果压缩步骤导致意外的性能下降,实践者可以回退到之前保存的检查点。"这让人们能够控制愿意在性能方面付出的代价,而不必定义一个不够直观的能量阈值,"Chahine解释道。</p><p dir="ltr">该技术存在一些实际边界。CompreSSM最适用于内部状态维度与整体性能之间存在强相关性的模型,而这一特性因任务和架构而异。该方法在多输入多输出(MIMO)模型上特别有效,因为这些模型中状态大小与表达能力之间的关系最强。对于逐通道的单输入单输出架构,收益较为有限,因为这些模型本身对状态维度变化的敏感度较低。</p><p dir="ltr">该理论最适用于线性时不变系统,尽管研究团队已开发出针对日益流行的输入依赖、时变架构的扩展方法。由于状态空间模型家族可扩展至线性注意力等架构——这是作为传统transformer替代方案日益受关注的领域,其潜在应用范围相当广泛。</p><p dir="ltr">Chahine及其合作者将这项工作视为一块垫脚石。团队已经展示了向Mamba等线性时变系统的扩展,未来方向包括将CompreSSM进一步推向线性注意力机制中使用的矩阵值动态系统,这将使该技术更接近当今大多数大型AI系统所基于的transformer架构。</p><p dir="ltr">"这必须是第一步,因为这里的理论是简洁的,方法可以保持原则性,"Chahine说。"它是进一步扩展到当今工业界正在使用的其他架构的垫脚石。"</p><p dir="ltr">"Chahine及其同事的工作为现代状态空间模型的压缩提供了一个引人入胜、理论基础扎实的视角,"未参与该研究的ELLIS Institute Tübingen首席研究员兼MPI智能系统独立研究组负责人Antonio Orvieto说。"该方法提供了证据表明状态维度
查看缓存全文
缓存时间: 2026/05/08 08:56
# 新技术让 AI 模型边学边瘦、边学边快
来源:https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-they're-still-learning-0409
训练大型人工智能模型成本高昂,不仅是金钱,还包括时间、能源和计算资源。传统上,要获得一个更小、更快的模型,要么先训练一个庞大的模型再裁剪,要么从零开始训练一个小模型但接受较弱的性能。
MIT 计算机科学与人工智能实验室(CSAIL)、马克斯·普朗克智能系统研究所、欧洲学习与智能系统实验室、ETH 以及 Liquid AI 的研究人员现已开发出一种新方法,完全绕开了这种权衡——在训练过程中压缩模型,而非训练结束后。
这项名为 [CompreSSM](https://arxiv.org/abs/2510.02823) 的技术针对一类被称为**状态空间模型**的 AI 架构,这类模型支撑着从语言处理到音频生成和机器人技术等各种应用。研究人员借鉴控制理论中的数学工具,能够识别模型中哪些部分在发挥作用、哪些是累赘,从而在训练早期就精准剔除不必要的组件。
"这本质上是一种让模型在训练过程中变得越来越小、越来越快的技术,"该论文的第一作者、电气工程与计算机科学博士生、CSAIL 附属研究员 Makram Chahine 说道,"在学习的同时,它们也在摆脱对自身发展无用的部分。"
关键洞见在于,这些模型中不同组件的相对重要性在训练过程中 surprisingly 早就趋于稳定。研究团队使用一种称为 **Hankel 奇异值**的数学量来衡量每个内部状态对模型整体行为的贡献程度,他们证明只需约 10% 的训练过程就能可靠地排序哪些维度重要、哪些不重要。一旦这些排序确立,不太重要的组件就可以安全丢弃,剩余 90% 的训练就能以一个小得多的模型的速度进行。
"这项工作的激动人心之处在于,它将压缩从马后炮变成了学习过程本身的一部分,"资深作者、MIT 教授兼 CSAIL 主任 Daniela Rus 表示,"不是先训练一个大模型再想办法缩小,CompreSSM 让模型在学习过程中自主发现高效的结构。这是构建 AI 系统的一种根本性不同的思路。"
结果令人瞩目。在图像分类基准测试中,压缩模型保持了与完整尺寸模型几乎相同的准确率,同时训练速度提升高达 1.5 倍。一个被压缩至原始状态维度约四分之一的模型在 CIFAR-10 基准上达到 85.7% 的准确率,而从头以该较小尺寸训练的模型仅为 81.8%。在 Mamba 这一最广泛使用的状态空间架构上,该方法实现了约 4 倍的训练加速,将一个 128 维的模型压缩至约 12 维,同时保持有竞争力的性能。
"你能获得大模型的性能,因为在预热阶段捕捉了大部分复杂动态,然后只保留最有用的状态,"Chahine 说,"模型仍能达到比从头训练小模型更高的水平。"
CompreSSM 与现有方法的区别在于其理论基础。传统的剪枝方法先训练完整模型再事后剥离参数,意味着你仍需支付训练大模型的全部计算成本。知识蒸馏是另一种流行技术,需要将一个大型"教师"模型训练完成,再在其上训练一个较小的"学生"模型,本质上使训练工作量翻倍。CompreSSM 通过在训练中期做出有根据的压缩决策,避免了这两种成本。
团队将 CompreSSM 与两种替代方法进行了正面比较。与近期提出的谱技术 Hankel 核范数正则化(用于促进紧凑的状态空间模型)相比,CompreSSM 速度提升超过 40 倍,同时获得更高的准确率。正则化方法将训练速度降低了约 16 倍,因为它需要在每个梯度步骤进行昂贵的特征值计算,即便如此,所得模型性能仍不理想。在 CIFAR-10 上与知识蒸馏相比,CompreSSM 在高度压缩模型上优势明显:在较小的状态维度下,蒸馏模型出现显著准确率下降,而 CompreSSM 压缩模型保持接近完整的性能。而且由于蒸馏需要在每个训练步骤对教师和学生都进行前向传播,即使其较小的学生模型也比完整尺寸的基线训练得更慢。
研究人员从数学上证明了,得益于 Weyl 定理的应用,单个模型状态的重要性在训练过程中平滑变化,并实证展示了这些状态的相对排序保持稳定。这些发现共同给予从业者信心:早期被识别为可忽略的维度不会突然在后期变得关键。
该方法还附带一个务实的安全网。如果压缩步骤导致意外的性能下降,从业者可以回退到先前保存的检查点。"这让人们能够控制愿意以多少性能为代价,而不必定义一个不太直观的能量阈值,"Chahine 解释道。
该技术存在一些实际边界。CompreSSM 最适用于内部状态维度与整体性能之间存在强相关性的模型,而这种特性因任务和架构而异。该方法在多输入多输出(MIMO)模型上尤为有效,因为这些模型的状态大小与表达能力之间关系最强。对于逐通道的单输入单输出架构,收益较为有限,因为这些模型本身对状态维度变化就不太敏感。
该理论最适用于线性时不变系统,尽管团队已开发出扩展方案以应对日益流行的输入依赖、时变架构。由于状态空间模型家族延伸至线性注意力等架构——这是作为传统 Transformer 替代方案的日益受关注的领域,潜在的应用范围相当广泛。
Chahine 及其合作者将这项工作视为一块垫脚石。团队已证明对 Mamba 等线性时变系统的扩展,未来方向包括将 CompreSSM 进一步推向线性注意力机制中使用的矩阵值动态系统,这将使该技术更接近当今大多数大型 AI 系统所基于的 Transformer 架构。
"这必须是第一步,因为这里的理论简洁,方法可以保持原则性,"Chahine 说,"然后再扩展到人们如今在工业界使用的其他架构。"
"Chahine 及其同事的工作为现代状态空间模型的压缩提供了一个引人入胜、理论扎实的视角,"未参与该研究的 ELLIS 研究所图宾根首席研究员、马克斯·普朗克智能系统研究所独立研究组负责人 Antonio Orvieto 表示,"该方法证明这些模型的状态维度可以在训练过程中有效缩减,且控制理论的视角能够成功指导这一过程。这项工作开辟了未来研究的新途径,所提出的算法有潜力成为预训练大型基于 SSM 模型时的标准方法。"
这项工作已被 2026 年国际学习表征会议(ICLR)接收为[会议论文](https://arxiv.org/abs/2510.02823),将于本月晚些时候发表。该研究部分由马克斯·普朗克 ETH 学习中心、Hector 基金会、波音公司和美国海军研究办公室资助。
相似文章
@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...
Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。
本地模型是否比预期更快变得“足够好”?
这篇文章讨论了本地AI模型在日常任务中日益增长的可行性,暗示了向混合架构的转变,这种架构优化成本和延迟,而不是仅仅依赖前沿的云模型。
新一代AI模型与最具影响力的研究论文之一。
Token AI发布了一篇研究论文,介绍STAM——一种新型自适应动量优化器,旨在提升训练稳定性并降低内存占用,相比AdamW等标准优化器效果更优。
@AI_jacksaku: GitHub本周黑马:Unsloth AI模型训练速度提升2-5倍, 显存占用减少80%。 这意味着什么? 以前微调一个大模型, 需要A100集群+几万美金。 现在一张4090, 几小时就能搞定。 Unsloth做了什么? 优化了注意力机…
Unsloth开源工具将大模型微调速度提升2-5倍、显存降低80%,使单张RTX 4090几小时完成原本需A100集群的任务。
一种估算 AI 功耗的更快速方法
来自麻省理工学院(MIT)和 IBM 的研究人员开发了一种快速工具,可在几秒钟内估算 AI 功耗,速度远超传统的模拟方法,有助于优化数据中心的能源效率。