用于轻量级多模态推理的光谱渐进式思路流

arXiv cs.LG 2026/06/03 04:00 论文

摘要

提出SpecFlow，一种轻量级多模态空间推理框架，在固定大小的离散余弦空间中表示中间视觉思维，将计算和KV缓存成本降低多达2.1倍，同时保持有竞争力的性能。

arXiv:2606.02842v1 公告类型: 新摘要：多模态空间推理通常依赖于长链的中间文本和视觉思维，其中累积的视觉标记和密集的跨模态注意力会带来大量的计算和内存开销。为了解决这一挑战，我们提出了光谱渐进式思路流（SpecFlow），一种新颖的轻量级多模态空间推理框架，它在固定大小的离散余弦空间中表示中间视觉思维。通过利用强能量压缩，SpecFlow保留了全局布局和关系结构，同时仅在需要更高空间精度时引入高频细节。为了将视觉状态演化与语言意图对齐，无分类器引导使得自回归文本思维能够指导基于流的视觉工作区/状态更新，而无需扩展上下文。因此，SpecFlow维持了一个有界的视觉工作区，其更新仅依赖于当前视觉状态和累积的文本轨迹，从而能够以与推理深度无关的稳定延迟和内存使用进行长时域推理。实验结果表明，SpecFlow在实现有竞争力甚至更优的推理性能的同时，将计算和KV缓存成本降低了多达2.1倍。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:40

# 频谱渐进思维流：用于轻量级多模态推理
来源：https://arxiv.org/abs/2606.02842
查看 PDF（https://arxiv.org/pdf/2606.02842）

> 摘要：多模态空间推理通常依赖于由中间文本和视觉思维组成的长链，其中累积的视觉 token 与密集的跨模态注意力会带来巨大的计算和内存开销。为应对这一挑战，我们提出频谱渐进思维流（SpecFlow），一种新颖的轻量级多模态空间推理框架，它用固定大小的离散余弦空间来表示中间视觉思维。通过利用强能量压缩特性，SpecFlow 保留全局布局和关系结构，仅在需要更高空间精度时才引入高频细节。为了将视觉状态演化与语言意图对齐，无分类器引导使得自回归文本思维能够引导基于流的视觉工作空间/状态更新，而无需扩展上下文。最终，SpecFlow 维持一个有界的视觉工作空间，其更新仅依赖于当前视觉状态和累积的文本轨迹，从而在延迟和内存使用稳定且不随推理深度变化的情况下实现长程推理。实验结果表明，SpecFlow 在实现具有竞争力或更优推理性能的同时，将计算开销和 KV 缓存成本降低高达 2.1 倍。

## 提交历史

来自：Yixian Shen \[查看电子邮件（https://arxiv.org/show-email/a94caaee/2606.02842）\] **\[v1\]**2026 年 6 月 1 日星期一 20:06:50 UTC（1,616 KB）

用于轻量级多模态推理的光谱渐进式思路流

相似文章

FlowRAG：通过频率感知的多粒度图流协同显式推理

OmniThoughtVis：一种用于部署型多模态推理模型的可扩展蒸馏流水线

轻看，重思：多模态思维链推理能做什么与不能做什么

检索、整合与综合：空间-语义接地潜层视觉推理

SVoT: 基于强化学习的状态感知思维可视化空间推理

提交意见反馈