用于轻量级多模态推理的光谱渐进式思路流

arXiv cs.LG 论文

摘要

提出SpecFlow,一种轻量级多模态空间推理框架,在固定大小的离散余弦空间中表示中间视觉思维,将计算和KV缓存成本降低多达2.1倍,同时保持有竞争力的性能。

arXiv:2606.02842v1 公告类型: 新 摘要:多模态空间推理通常依赖于长链的中间文本和视觉思维,其中累积的视觉标记和密集的跨模态注意力会带来大量的计算和内存开销。为了解决这一挑战,我们提出了光谱渐进式思路流(SpecFlow),一种新颖的轻量级多模态空间推理框架,它在固定大小的离散余弦空间中表示中间视觉思维。通过利用强能量压缩,SpecFlow保留了全局布局和关系结构,同时仅在需要更高空间精度时引入高频细节。为了将视觉状态演化与语言意图对齐,无分类器引导使得自回归文本思维能够指导基于流的视觉工作区/状态更新,而无需扩展上下文。因此,SpecFlow维持了一个有界的视觉工作区,其更新仅依赖于当前视觉状态和累积的文本轨迹,从而能够以与推理深度无关的稳定延迟和内存使用进行长时域推理。实验结果表明,SpecFlow在实现有竞争力甚至更优的推理性能的同时,将计算和KV缓存成本降低了多达2.1倍。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:40

# 频谱渐进思维流:用于轻量级多模态推理
来源:https://arxiv.org/abs/2606.02842
查看 PDF(https://arxiv.org/pdf/2606.02842)

> 摘要:多模态空间推理通常依赖于由中间文本和视觉思维组成的长链,其中累积的视觉 token 与密集的跨模态注意力会带来巨大的计算和内存开销。为应对这一挑战,我们提出频谱渐进思维流(SpecFlow),一种新颖的轻量级多模态空间推理框架,它用固定大小的离散余弦空间来表示中间视觉思维。通过利用强能量压缩特性,SpecFlow 保留全局布局和关系结构,仅在需要更高空间精度时才引入高频细节。为了将视觉状态演化与语言意图对齐,无分类器引导使得自回归文本思维能够引导基于流的视觉工作空间/状态更新,而无需扩展上下文。最终,SpecFlow 维持一个有界的视觉工作空间,其更新仅依赖于当前视觉状态和累积的文本轨迹,从而在延迟和内存使用稳定且不随推理深度变化的情况下实现长程推理。实验结果表明,SpecFlow 在实现具有竞争力或更优推理性能的同时,将计算开销和 KV 缓存成本降低高达 2.1 倍。

## 提交历史

来自:Yixian Shen \[查看电子邮件(https://arxiv.org/show-email/a94caaee/2606.02842)\] **\[v1\]**2026 年 6 月 1 日星期一 20:06:50 UTC(1,616 KB)

相似文章

OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线

arXiv cs.CL

本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。

检索、整合与综合:空间-语义接地潜层视觉推理

arXiv cs.CL

本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。

SVoT: 基于强化学习的状态感知思维可视化空间推理

arXiv cs.AI

论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。