用于轻量级多模态推理的光谱渐进式思路流
摘要
提出SpecFlow,一种轻量级多模态空间推理框架,在固定大小的离散余弦空间中表示中间视觉思维,将计算和KV缓存成本降低多达2.1倍,同时保持有竞争力的性能。
arXiv:2606.02842v1 公告类型: 新
摘要:多模态空间推理通常依赖于长链的中间文本和视觉思维,其中累积的视觉标记和密集的跨模态注意力会带来大量的计算和内存开销。为了解决这一挑战,我们提出了光谱渐进式思路流(SpecFlow),一种新颖的轻量级多模态空间推理框架,它在固定大小的离散余弦空间中表示中间视觉思维。通过利用强能量压缩,SpecFlow保留了全局布局和关系结构,同时仅在需要更高空间精度时引入高频细节。为了将视觉状态演化与语言意图对齐,无分类器引导使得自回归文本思维能够指导基于流的视觉工作区/状态更新,而无需扩展上下文。因此,SpecFlow维持了一个有界的视觉工作区,其更新仅依赖于当前视觉状态和累积的文本轨迹,从而能够以与推理深度无关的稳定延迟和内存使用进行长时域推理。实验结果表明,SpecFlow在实现有竞争力甚至更优的推理性能的同时,将计算和KV缓存成本降低了多达2.1倍。
查看缓存全文
缓存时间: 2026/06/03 09:40
# 频谱渐进思维流:用于轻量级多模态推理 来源:https://arxiv.org/abs/2606.02842 查看 PDF(https://arxiv.org/pdf/2606.02842) > 摘要:多模态空间推理通常依赖于由中间文本和视觉思维组成的长链,其中累积的视觉 token 与密集的跨模态注意力会带来巨大的计算和内存开销。为应对这一挑战,我们提出频谱渐进思维流(SpecFlow),一种新颖的轻量级多模态空间推理框架,它用固定大小的离散余弦空间来表示中间视觉思维。通过利用强能量压缩特性,SpecFlow 保留全局布局和关系结构,仅在需要更高空间精度时才引入高频细节。为了将视觉状态演化与语言意图对齐,无分类器引导使得自回归文本思维能够引导基于流的视觉工作空间/状态更新,而无需扩展上下文。最终,SpecFlow 维持一个有界的视觉工作空间,其更新仅依赖于当前视觉状态和累积的文本轨迹,从而在延迟和内存使用稳定且不随推理深度变化的情况下实现长程推理。实验结果表明,SpecFlow 在实现具有竞争力或更优推理性能的同时,将计算开销和 KV 缓存成本降低高达 2.1 倍。 ## 提交历史 来自:Yixian Shen \[查看电子邮件(https://arxiv.org/show-email/a94caaee/2606.02842)\] **\[v1\]**2026 年 6 月 1 日星期一 20:06:50 UTC(1,616 KB)
相似文章
FlowRAG:通过频率感知的多粒度图流协同显式推理
FlowRAG 提出了一种新颖的语义感知检索框架,该框架构建了四层异构图,并利用频率感知的加权流提取显式推理路径,在复杂推理基准测试中取得了最先进的性能。
OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线
本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。
轻看,重思:多模态思维链推理能做什么与不能做什么
本文系统评估了12个任务上的多模态思维链推理,发现它对推理任务有选择性效果,但对感知任务有害,并识别出了一种“轻看,重思”模式,即在推理过程中视觉内省能力下降。
检索、整合与综合:空间-语义接地潜层视觉推理
本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。
SVoT: 基于强化学习的状态感知思维可视化空间推理
论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。