GeoStack:一种用于VLMs中拟阿贝尔知识组合的框架

Hugging Face Daily Papers 论文

摘要

GeoStack 引入了一种几何框架,用于在视觉语言模型中组合独立训练的领域专家,而不会出现灾难性遗忘,实现了常数时间推理,并将几何误差降低了10倍。

我们解决了视觉语言模型(VLMs)中知识组合的挑战,因为跨多个领域或任务积累专业知识通常会导致灾难性遗忘。我们引入了GeoStack(几何堆叠),这是一个模块化框架,允许将独立训练的领域专家组合成一个统一的模型。通过在适配器流形上施加几何和结构约束,GeoStack确保了基础模型的基础知识得以保留。此外,我们从数学上证明了权重折叠性质,该性质实现了常数时间推理复杂度(O(1)),无论集成的专家数量如何。跨多领域适应和类增量学习的实验结果表明,GeoStack提供了一种高效的长期知识组合机制,同时显著缓解了灾难性遗忘。代码可在 https://github.com/QuantitativeImagingLaboratory/GeoStack 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/08 18:28

论文页面 - GeoStack:视觉语言模型中准阿贝尔知识组合框架

来源:https://huggingface.co/papers/2605.06477 https://huggingface.co/login?next=%2Fpapers%2F2605.06477-

摘要

GeoStack 是一个模块化框架,通过几何约束在适配器流形上组合视觉语言模型中的领域专家,同时保留基础知识并实现常数时间推理。

我们解决了视觉语言模型(VLM)中的知识组合挑战,即在跨多个领域或任务累积专业知识时,通常会导致灾难性遗忘。我们提出 GeoStack(几何堆叠),这是一个模块化框架,允许将独立训练的领域专家组合成统一模型。通过对适配器流形施加几何与结构约束,GeoStack 确保了基础模型的基础知识得以保留。此外,我们在数学上证明了权重折叠性质,无论集成专家数量多少,都能实现常数时间推理复杂度 O(1)。跨多领域适应和类增量学习的实验结果表明,GeoStack 为长期知识组合提供了一种高效机制,同时显著缓解了灾难性遗忘。代码可在 https://github.com/QuantitativeImagingLaboratory/GeoStack 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06477)查看 PDF (https://arxiv.org/pdf/2605.06477)项目页面 (https://quantitativeimaginglaboratory.github.io/GeoStack/)GitHub0 (https://github.com/QuantitativeImagingLaboratory/GeoStack)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.06477)

社区

论文提交者

大约 3 小时前 (https://huggingface.co/papers/2605.06477#69fe034985dc8ffe4968700d)

在 VLM 崩溃之前,你能堆叠多少个领域专家?🧱

intro (https://cdn-uploads.huggingface.co/production/uploads/66fd681a87c2b10395d0cf58/vxbqJtbfbsNk16ok0zbun.png)

GeoStack 引入了一个几何框架,将独立训练的专家组合成单个模型,且推理成本为零。通过使用扰动先验和正交性约束,与标准适配器相比,几何误差降低了 10 倍。

如果你正在寻找一种构建专门 VLM 且不遗忘其基础知识的方法,不妨看看这个!

通过拖拽、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

https://huggingface.co/login?next=%2Fpapers%2F2605.06477-

在你的智能体中获取这篇论文:

hf papers read 2605.06477

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在你的模型 README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。

引用此论文的数据集0

无数据集链接此论文

请在你的数据集 README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。

引用此论文的 Space0

无 Space 链接此论文

请在你的 Space README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。

包含此论文的集合0

无集合包含此论文

请将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面关联。

相似文章

Stream3D-VLM:基于增量几何先验的在线3D空间理解

Hugging Face Daily Papers

Stream3D-VLM 是一款在线3D视觉-语言模型,通过增量整合几何先验并使用几何自适应体素压缩,能够从流式视频中实现实时空间理解,在3D空间理解任务上优于现有模型。