GeoStack：一种用于VLMs中拟阿贝尔知识组合的框架

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

GeoStack 引入了一种几何框架，用于在视觉语言模型中组合独立训练的领域专家，而不会出现灾难性遗忘，实现了常数时间推理，并将几何误差降低了10倍。

我们解决了视觉语言模型（VLMs）中知识组合的挑战，因为跨多个领域或任务积累专业知识通常会导致灾难性遗忘。我们引入了GeoStack（几何堆叠），这是一个模块化框架，允许将独立训练的领域专家组合成一个统一的模型。通过在适配器流形上施加几何和结构约束，GeoStack确保了基础模型的基础知识得以保留。此外，我们从数学上证明了权重折叠性质，该性质实现了常数时间推理复杂度（O(1)），无论集成的专家数量如何。跨多领域适应和类增量学习的实验结果表明，GeoStack提供了一种高效的长期知识组合机制，同时显著缓解了灾难性遗忘。代码可在 https://github.com/QuantitativeImagingLaboratory/GeoStack 获取。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 18:28

论文页面 - GeoStack：视觉语言模型中准阿贝尔知识组合框架

来源：https://huggingface.co/papers/2605.06477 https://huggingface.co/login?next=%2Fpapers%2F2605.06477-

摘要

GeoStack 是一个模块化框架，通过几何约束在适配器流形上组合视觉语言模型中的领域专家，同时保留基础知识并实现常数时间推理。

我们解决了视觉语言模型（VLM）中的知识组合挑战，即在跨多个领域或任务累积专业知识时，通常会导致灾难性遗忘。我们提出 GeoStack（几何堆叠），这是一个模块化框架，允许将独立训练的领域专家组合成统一模型。通过对适配器流形施加几何与结构约束，GeoStack 确保了基础模型的基础知识得以保留。此外，我们在数学上证明了权重折叠性质，无论集成专家数量多少，都能实现常数时间推理复杂度 O(1)。跨多领域适应和类增量学习的实验结果表明，GeoStack 为长期知识组合提供了一种高效机制，同时显著缓解了灾难性遗忘。代码可在 https://github.com/QuantitativeImagingLaboratory/GeoStack 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06477)查看 PDF (https://arxiv.org/pdf/2605.06477)项目页面 (https://quantitativeimaginglaboratory.github.io/GeoStack/)GitHub0 (https://github.com/QuantitativeImagingLaboratory/GeoStack)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.06477)

社区

论文提交者

大约 3 小时前 (https://huggingface.co/papers/2605.06477#69fe034985dc8ffe4968700d)

在 VLM 崩溃之前，你能堆叠多少个领域专家？🧱

intro (https://cdn-uploads.huggingface.co/production/uploads/66fd681a87c2b10395d0cf58/vxbqJtbfbsNk16ok0zbun.png)

GeoStack 引入了一个几何框架，将独立训练的专家组合成单个模型，且推理成本为零。通过使用扰动先验和正交性约束，与标准适配器相比，几何误差降低了 10 倍。

如果你正在寻找一种构建专门 VLM 且不遗忘其基础知识的方法，不妨看看这个！

通过拖拽、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

https://huggingface.co/login?next=%2Fpapers%2F2605.06477-

在你的智能体中获取这篇论文：

hf papers read 2605.06477

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在你的模型 README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。

引用此论文的数据集0

无数据集链接此论文

请在你的数据集 README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。

引用此论文的 Space0

无 Space 链接此论文

请在你的 Space README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。

包含此论文的集合0

无集合包含此论文

请将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面关联。

相似文章

HyperGVL：大型视觉-语言模型在超图理解和推理中的基准测试与改进

arXiv cs.CL

HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准，包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR，一个可泛化的路由器，通过自适应超图表示改进 LVLM 性能。

大语言模型几何表示鲁棒性评测

arXiv cs.CL

# 大语言模型几何表示鲁棒性评测来源：[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系，BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系，BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系，BITS Pilani

Switch-KD：面向视觉语言模型的视觉开关知识蒸馏

Hugging Face Daily Papers

Switch-KD提出了一种新颖的视觉开关知识蒸馏框架，通过在共享的文本概率空间内统一多模态知识迁移，高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时，在10个多模态基准测试上实现了平均3.6个百分点的提升。

OneVL：基于视觉语言解释的单步隐式推理与规划