BrainSurgery: 可重现且可靠的声明式权重操作,用于模型编辑与升级

Hugging Face Daily Papers 论文

摘要

BrainSurgery 是一个用于对神经网络检查点进行可重现且声明式权重操作的工具,通过内置验证的 YAML 计划实现模型编辑与升级。

随着深度学习模型规模的扩大,管理和检查以及修改大型检查点变得越来越具有挑战性。研究人员经常需要修改模型权重以进行层重构、精度转换、低秩分解和架构调试,但这些工作流程通常依赖于脆弱的临时Python脚本。在此,我们介绍BrainSurgery,一个用于对神经网络检查点进行稳健且可重现的“张量手术”的工具,并提供系统演示,涵盖四个示例和三个案例研究,从模型升级到LoRA提取。通过抽象存储格式和内存管理,BrainSurgery通过声明式YAML计划执行复杂变换。它支持通过表达式的正则表达式和结构定位进行结构修改、数学变换和张量重塑,同时内置断言验证张量形状、数据类型和数值,以防止静默错误。我们期望BrainSurgery通过其可重现且经过验证的操作,为未来研究提供坚实基础。
查看原文
查看缓存全文

缓存时间: 2026/06/10 09:44

论文页面 - BrainSurgery:用于模型编辑和升级的可重复、可靠的声明式权重操作

来源:https://huggingface.co/papers/2606.09707

摘要

BrainSurgery 是一个通过带有内置验证的声明式 YAML 计划,对神经网络检查点进行鲁棒且可重复的张量操作的工具。

随着深度学习模型规模的扩大,管理和修改大型检查点变得越来越具有挑战性。研究人员经常需要修改模型权重以进行层重组、精度转换、低秩分解和架构调试,但这些工作流通常依赖于脆弱的临时 Python 脚本。在此,我们介绍 BrainSurgery,这是一个用于对神经网络检查点进行鲁棒且可重复的“张量手术”的工具,并通过四个示例和三个案例研究(涵盖从模型升级到 LoRA 提取)提供了系统演示。通过抽象存储格式和内存管理,BrainSurgery 通过声明式 YAML 计划执行复杂的转换。它支持结构修改、数学变换和张量重塑,通过表达性的正则表达式和结构定位实现,同时内置的断言可验证张量形状、数据类型和值,以防止静默错误。我们期望 BrainSurgery 通过其可重复且经过验证的操作,为未来的研究提供坚实的基础。

查看 arXiv 页面 (https://arxiv.org/abs/2606.09707)查看 PDF (https://arxiv.org/pdf/2606.09707)GitHub3 (https://github.com/schneiderkamplab/brainsurgery)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09707)

在您的代理中获取此论文:

hf papers read 2606\.09707

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.09707 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.09707 以从此页面链接。

引用此论文的空间0

没有空间链接此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.09707 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

BrainG3N: 一种用于可控3D脑部MRI生成的双用途分词器

arXiv cs.AI

介绍了BrainG3N,一种用于3D脑部MRI潜在扩散的双用途分词器,它使用冻结的掩码自编码器(MAE)编码器生成临床信息丰富的嵌入表示,并使用CNN解码器进行重建,在23个任务的基准测试中达到了最先进性能,并实现了可控生成和纵向预测。

以数据为中心的调试:面向训练神经网络的团队 [P]

Reddit r/MachineLearning

WeightsLab 是一个开源、PyTorch 原生的工具,允许团队在训练过程中暂停、检查实时损失信号,并在数据问题(如标签错误和类别不平衡)影响模型性能之前发现它们。它专为处理图像、视频和 LiDAR 点云的计算机视觉工程师而设计。

循环权重空间中的任务受限对称性

arXiv cs.LG

本文通过使用有序实Schur坐标来识别保持任务性能的结构消融,研究循环神经网络中的功能冗余,发现任务受限对称性在不同任务和训练方案之间存在差异。