GeoStack:一种用于VLMs中拟阿贝尔知识组合的框架

Hugging Face Daily Papers 论文

摘要

GeoStack 引入了一种几何框架,用于在视觉语言模型中组合独立训练的领域专家,而不会出现灾难性遗忘,实现了常数时间推理,并将几何误差降低了10倍。

我们解决了视觉语言模型(VLMs)中知识组合的挑战,因为跨多个领域或任务积累专业知识通常会导致灾难性遗忘。我们引入了GeoStack(几何堆叠),这是一个模块化框架,允许将独立训练的领域专家组合成一个统一的模型。通过在适配器流形上施加几何和结构约束,GeoStack确保了基础模型的基础知识得以保留。此外,我们从数学上证明了权重折叠性质,该性质实现了常数时间推理复杂度(O(1)),无论集成的专家数量如何。跨多领域适应和类增量学习的实验结果表明,GeoStack提供了一种高效的长期知识组合机制,同时显著缓解了灾难性遗忘。代码可在 https://github.com/QuantitativeImagingLaboratory/GeoStack 获取。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 18:28

论文页面 - GeoStack:视觉语言模型中准阿贝尔知识组合框架

来源:https://huggingface.co/papers/2605.06477 https://huggingface.co/login?next=%2Fpapers%2F2605.06477-

摘要

GeoStack 是一个模块化框架,通过几何约束在适配器流形上组合视觉语言模型中的领域专家,同时保留基础知识并实现常数时间推理。

我们解决了视觉语言模型(VLM)中的知识组合挑战,即在跨多个领域或任务累积专业知识时,通常会导致灾难性遗忘。我们提出 GeoStack(几何堆叠),这是一个模块化框架,允许将独立训练的领域专家组合成统一模型。通过对适配器流形施加几何与结构约束,GeoStack 确保了基础模型的基础知识得以保留。此外,我们在数学上证明了权重折叠性质,无论集成专家数量多少,都能实现常数时间推理复杂度 O(1)。跨多领域适应和类增量学习的实验结果表明,GeoStack 为长期知识组合提供了一种高效机制,同时显著缓解了灾难性遗忘。代码可在 https://github.com/QuantitativeImagingLaboratory/GeoStack 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06477)查看 PDF (https://arxiv.org/pdf/2605.06477)项目页面 (https://quantitativeimaginglaboratory.github.io/GeoStack/)GitHub0 (https://github.com/QuantitativeImagingLaboratory/GeoStack)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.06477)

社区

论文提交者

大约 3 小时前 (https://huggingface.co/papers/2605.06477#69fe034985dc8ffe4968700d)

在 VLM 崩溃之前,你能堆叠多少个领域专家?🧱

intro (https://cdn-uploads.huggingface.co/production/uploads/66fd681a87c2b10395d0cf58/vxbqJtbfbsNk16ok0zbun.png)

GeoStack 引入了一个几何框架,将独立训练的专家组合成单个模型,且推理成本为零。通过使用扰动先验和正交性约束,与标准适配器相比,几何误差降低了 10 倍。

如果你正在寻找一种构建专门 VLM 且不遗忘其基础知识的方法,不妨看看这个!

通过拖拽、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

https://huggingface.co/login?next=%2Fpapers%2F2605.06477-

在你的智能体中获取这篇论文:

hf papers read 2605.06477

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在你的模型 README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。

引用此论文的数据集0

无数据集链接此论文

请在你的数据集 README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。

引用此论文的 Space0

无 Space 链接此论文

请在你的 Space README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。

包含此论文的集合0

无集合包含此论文

请将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面关联。

相似文章

大语言模型几何表示鲁棒性评测

arXiv cs.CL

# 大语言模型几何表示鲁棒性评测 来源:[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系,BITS Pilani

Switch-KD:面向视觉语言模型的视觉开关知识蒸馏

Hugging Face Daily Papers

Switch-KD提出了一种新颖的视觉开关知识蒸馏框架,通过在共享的文本概率空间内统一多模态知识迁移,高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时,在10个多模态基准测试上实现了平均3.6个百分点的提升。

OneVL:基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v

Vokenization:面向视觉与语言的多模态学习

ML at Berkeley

本文介绍了“Vokenization”,这是一种多模态学习技术,通过利用弱监督将视觉数据与语言标记联系起来,从而架起计算机视觉与自然语言处理之间的桥梁。文章将其与 GPT-3 和 BERT 等纯文本模型进行了对比,强调了视觉定位如何提升语言理解能力。