GeoStack:一种用于VLMs中拟阿贝尔知识组合的框架
摘要
GeoStack 引入了一种几何框架,用于在视觉语言模型中组合独立训练的领域专家,而不会出现灾难性遗忘,实现了常数时间推理,并将几何误差降低了10倍。
查看缓存全文
缓存时间: 2026/05/08 18:28
论文页面 - GeoStack:视觉语言模型中准阿贝尔知识组合框架
来源:https://huggingface.co/papers/2605.06477 https://huggingface.co/login?next=%2Fpapers%2F2605.06477-
摘要
GeoStack 是一个模块化框架,通过几何约束在适配器流形上组合视觉语言模型中的领域专家,同时保留基础知识并实现常数时间推理。
我们解决了视觉语言模型(VLM)中的知识组合挑战,即在跨多个领域或任务累积专业知识时,通常会导致灾难性遗忘。我们提出 GeoStack(几何堆叠),这是一个模块化框架,允许将独立训练的领域专家组合成统一模型。通过对适配器流形施加几何与结构约束,GeoStack 确保了基础模型的基础知识得以保留。此外,我们在数学上证明了权重折叠性质,无论集成专家数量多少,都能实现常数时间推理复杂度 O(1)。跨多领域适应和类增量学习的实验结果表明,GeoStack 为长期知识组合提供了一种高效机制,同时显著缓解了灾难性遗忘。代码可在 https://github.com/QuantitativeImagingLaboratory/GeoStack 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06477)查看 PDF (https://arxiv.org/pdf/2605.06477)项目页面 (https://quantitativeimaginglaboratory.github.io/GeoStack/)GitHub0 (https://github.com/QuantitativeImagingLaboratory/GeoStack)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.06477)
社区
论文提交者
大约 3 小时前 (https://huggingface.co/papers/2605.06477#69fe034985dc8ffe4968700d)
在 VLM 崩溃之前,你能堆叠多少个领域专家?🧱
intro (https://cdn-uploads.huggingface.co/production/uploads/66fd681a87c2b10395d0cf58/vxbqJtbfbsNk16ok0zbun.png)
GeoStack 引入了一个几何框架,将独立训练的专家组合成单个模型,且推理成本为零。通过使用扰动先验和正交性约束,与标准适配器相比,几何误差降低了 10 倍。
如果你正在寻找一种构建专门 VLM 且不遗忘其基础知识的方法,不妨看看这个!
通过拖拽、粘贴或点击此处上传图片、音频和视频。
点击或粘贴此处以上传图片
https://huggingface.co/login?next=%2Fpapers%2F2605.06477-
在你的智能体中获取这篇论文:
hf papers read 2605.06477
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
请在你的模型 README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。
引用此论文的数据集0
无数据集链接此论文
请在你的数据集 README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。
引用此论文的 Space0
无 Space 链接此论文
请在你的 Space README.md 中引用 arxiv.org/abs/2605.06477 以从此页面关联。
包含此论文的集合0
无集合包含此论文
请将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面关联。
相似文章
HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
大语言模型几何表示鲁棒性评测
# 大语言模型几何表示鲁棒性评测 来源:[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系,BITS Pilani
Switch-KD:面向视觉语言模型的视觉开关知识蒸馏
Switch-KD提出了一种新颖的视觉开关知识蒸馏框架,通过在共享的文本概率空间内统一多模态知识迁移,高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时,在10个多模态基准测试上实现了平均3.6个百分点的提升。
OneVL:基于视觉语言解释的单步隐式推理与规划
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v
Vokenization:面向视觉与语言的多模态学习
本文介绍了“Vokenization”,这是一种多模态学习技术,通过利用弱监督将视觉数据与语言标记联系起来,从而架起计算机视觉与自然语言处理之间的桥梁。文章将其与 GPT-3 和 BERT 等纯文本模型进行了对比,强调了视觉定位如何提升语言理解能力。