BrainSurgery: 可重现且可靠的声明式权重操作,用于模型编辑与升级
摘要
BrainSurgery 是一个用于对神经网络检查点进行可重现且声明式权重操作的工具,通过内置验证的 YAML 计划实现模型编辑与升级。
查看缓存全文
缓存时间: 2026/06/10 09:44
论文页面 - BrainSurgery:用于模型编辑和升级的可重复、可靠的声明式权重操作
来源:https://huggingface.co/papers/2606.09707
摘要
BrainSurgery 是一个通过带有内置验证的声明式 YAML 计划,对神经网络检查点进行鲁棒且可重复的张量操作的工具。
随着深度学习模型规模的扩大,管理和修改大型检查点变得越来越具有挑战性。研究人员经常需要修改模型权重以进行层重组、精度转换、低秩分解和架构调试,但这些工作流通常依赖于脆弱的临时 Python 脚本。在此,我们介绍 BrainSurgery,这是一个用于对神经网络检查点进行鲁棒且可重复的“张量手术”的工具,并通过四个示例和三个案例研究(涵盖从模型升级到 LoRA 提取)提供了系统演示。通过抽象存储格式和内存管理,BrainSurgery 通过声明式 YAML 计划执行复杂的转换。它支持结构修改、数学变换和张量重塑,通过表达性的正则表达式和结构定位实现,同时内置的断言可验证张量形状、数据类型和值,以防止静默错误。我们期望 BrainSurgery 通过其可重复且经过验证的操作,为未来的研究提供坚实的基础。
查看 arXiv 页面 (https://arxiv.org/abs/2606.09707)查看 PDF (https://arxiv.org/pdf/2606.09707)GitHub3 (https://github.com/schneiderkamplab/brainsurgery)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09707)
在您的代理中获取此论文:
hf papers read 2606\.09707
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.09707 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.09707 以从此页面链接。
引用此论文的空间0
没有空间链接此论文
请在空间 README.md 中引用 arxiv.org/abs/2606.09707 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
BrainG3N: 一种用于可控3D脑部MRI生成的双用途分词器
介绍了BrainG3N,一种用于3D脑部MRI潜在扩散的双用途分词器,它使用冻结的掩码自编码器(MAE)编码器生成临床信息丰富的嵌入表示,并使用CNN解码器进行重建,在23个任务的基准测试中达到了最先进性能,并实现了可控生成和纵向预测。
以数据为中心的调试:面向训练神经网络的团队 [P]
WeightsLab 是一个开源、PyTorch 原生的工具,允许团队在训练过程中暂停、检查实时损失信号,并在数据问题(如标签错误和类别不平衡)影响模型性能之前发现它们。它专为处理图像、视频和 LiDAR 点云的计算机视觉工程师而设计。
Grokking Transformer中的权重衰减机制:廉价在线诊断
本文研究了权重衰减如何作为控制参数,使在模算术上训练的Transformer在记忆与泛化之间发生转变,并引入了两种基于注意力激活的廉价在线诊断指标,用以追踪这些动态。
循环权重空间中的任务受限对称性
本文通过使用有序实Schur坐标来识别保持任务性能的结构消融,研究循环神经网络中的功能冗余,发现任务受限对称性在不同任务和训练方案之间存在差异。
@AnneliesGamble: https://x.com/AnneliesGamble/status/2066949973749755919
探索为什么绘制大脑连接组是有价值的,认为与AI系统不同(AI的设计在权重之外的代码中),大脑必须物理地编码所有设计,因此结构是理解的关键。