LatentOmni：通过统一视听潜在推理重新思考全模态理解

arXiv cs.CL 2026/05/22 04:00 论文
audio-visual multimodal reasoning latent-space omnimodal chain-of-thought mllm
摘要
LatentOmni提出了一种用于视听推理的统一潜在空间，避免了基于文本的思维链带来的信息损失。在视听推理基准测试中，它在开源模型中达到了最先进的性能。
arXiv:2605.22012v1 公告类型：新论文摘要：联合视听推理对于全模态理解至关重要，然而当前的多模态大语言模型（MLLMs）在需要来自两种模态的细粒度证据进行推理时仍显吃力。一个核心限制在于，基于文本的显式思维链（CoT）将连续的视听信号压缩为离散token，削弱了时间定位能力，并使中间推理偏向语言先验。我们认为，统一的潜在空间更适合此类推理，因为它保留了丰富的感官信息，同时与自回归生成兼容。基于这一见解，我们提出了\textbf{LatentOmni}，一种交叉模态推理框架，将文本推理与视听潜在状态交错结合。LatentOmni引入特征级监督，使潜在推理状态与任务相关的感官特征对齐，并使用全同步位置编码（OSPE）来保持潜在音频和视觉状态之间的时间一致性。我们还构建了\textbf{LatentOmni-Instruct-35K}数据集，其中包含视听交错推理轨迹，用于监督潜在空间推理。在多个视听推理基准上的全面评估表明，LatentOmni在所评估的开源模型中取得了最佳性能，并且始终优于显式文本CoT基线，支持潜在空间联合推理作为通往更强全模态理解的一条有前景的路径。
查看原文
查看缓存全文
缓存时间: 2026/05/22 08:45
# 重新思考统一音频-视觉潜在推理的全模态理解 来源: https://arxiv.org/html/2605.22012 Yifan Dai¹,², Zhenhua Wu², Bohan Zeng³,², Daili Hua³, Jialing Liu⁷, Bozhou Li³,², Yuran Wang³,², Chengzhuo Tong³,², Hao Liang³, Xiaochen Ma⁴, Junbo Niu³, Tianyu Guo³, Yang Shi³,², Yue Ding⁵,², Yiyan Ji⁶,², Bingyin Mei⁸, Yushuo Guan², Yuanxing Zhang², Pengfei Wan², Fangcheng Fu¹, Wentao Zhang³ ¹上海交大AI学院, ²快手科技Kling团队, ³北京大学, ⁴香港科技大学, ⁵中科院自动化所, ⁶南京大学, ⁷中国人民大学, ⁸清华大学 ###### 摘要 联合音频-视觉推理对于全模态理解至关重要，然而当前的多模态大语言模型（MLLMs）在需要两个模态的细粒度证据进行推理时仍然存在困难。一个核心限制是，基于显式文本的思维链（CoT）将连续的音频-视觉信号压缩为离散的token，削弱了时间对齐能力，并将中间推理过程偏向于语言先验。我们认为，统一潜在空间是进行此类推理的更好媒介，因为它保留了密集的感知信息，同时与自回归生成兼容。基于这一见解，我们提出LatentOmni，一种交叉模态推理框架，它将文本推理与音频-视觉潜在状态交错进行。LatentOmni引入特征级监督，使潜在推理状态与任务相关的感知特征对齐，并使用全模态同步位置编码（OSPE）保持潜在音频和视觉状态之间的时间一致性。我们进一步构建了LatentOmni-Instruct-35K数据集，包含音频-视觉交错推理轨迹，用于监督潜在空间推理。在多个音频-视觉推理基准上的全面评估表明，LatentOmni在所评估的开源模型中取得了最佳性能，并且持续优于显式文本CoT基线，支持将潜在空间联合推理作为实现更强全模态理解的有前途途径。 ## 1 引言 现实世界中的信息本质上是多模态的[14 (https://arxiv.org/html/2605.22012#bib.bib45),57 (https://arxiv.org/html/2605.22012#bib.bib44)]，人工代理必须联合解释所见和所闻，以理解事件、因果关系和上下文[58 (https://arxiv.org/html/2605.22012#bib.bib1),1 (https://arxiv.org/html/2605.22012#bib.bib2),54 (https://arxiv.org/html/2605.22012#bib.bib60),48 (https://arxiv.org/html/2605.22012#bib.bib10)]。最近的多模态大语言模型（MLLMs）在音频-视觉感知任务（如字幕生成和定位）上取得了显著进展[3 (https://arxiv.org/html/2605.22012#bib.bib3),53 (https://arxiv.org/html/2605.22012#bib.bib59),4 (https://arxiv.org/html/2605.22012#bib.bib9),30 (https://arxiv.org/html/2605.22012#bib.bib62),7 (https://arxiv.org/html/2605.22012#bib.bib4),43 (https://arxiv.org/html/2605.22012#bib.bib8)]，但在需要跨模态整合细粒度证据的推理问题上仍受限[18 (https://arxiv.org/html/2605.22012#bib.bib46),40 (https://arxiv.org/html/2605.22012#bib.bib17)]。这一差距之所以重要，是因为音频-视觉理解不仅依赖于识别单个信号，还依赖于对其时间和语义交互的推理。我们识别出当前MLLMs执行推理的一个关键瓶颈。大多数现有方法依赖于显式或结构化的基于文本的思维链（CoT）[38 (https://arxiv.org/html/2605.22012#bib.bib13),36 (https://arxiv.org/html/2605.22012#bib.bib14),28 (https://arxiv.org/html/2605.22012#bib.bib15),56 (https://arxiv.org/html/2605.22012#bib.bib16)]，它将高维音频-视觉证据映射为离散的文本token。这种文本瓶颈会压缩时间对齐的细节，并促使模型在推理过程中依赖语言先验而非原生感知证据。如图1 (https://arxiv.org/html/2605.22012#S1.F1)所示，纯显式文本CoT因此倾向于忽视原始音频-视觉输入，限制了模型利用诸如时间同步之类的细粒度跨模态线索的能力。 参见图注图 1:LatentOmni与显式文本CoT基线（详见4.1 (https://arxiv.org/html/2605.22012#S4.SS1)）的比较。（左）定性上看，与基线不同，LatentOmni准确锚定关键的音频-视觉（AV）线索（由热图指示）以正确回答。（右）定量上，它在Daily-Omni基准的各任务中保持了显著更高的AV token注意力比率，确保对原始模态的鲁棒对齐。 我们认为，这种瓶颈可以通过将部分推理过程保留在连续潜在空间中得到缓解，因为细粒度的音频-视觉特征比离散化的文本解释更能直接保留。基于这一视角，我们提出LatentOmni，一种后训练框架，它在统一潜在空间中将文本推理与音频-视觉潜在状态交错进行。为了保持推理与原始模态的对齐，LatentOmni引入特征级监督，使潜在推理状态与任务相关的音频-视觉片段对齐，鼓励模型在整个推理过程中保留并关注原生感知证据。为了保持跨模态的时间一致性，我们进一步引入了全模态同步位置编码（OSPE），它将时间对齐的多模态RoPE[42 (https://arxiv.org/html/2605.22012#bib.bib43)]扩展到同步的潜在音频和视觉特征。这些设计共同使潜在状态成为音频、视觉和文本之间的密集桥梁，同时保留文本推理的结构性优势。在潜在空间中实施特征级监督需要具有预标注的、与推理相关的音频-视觉片段的CoT数据，而这种监督在当前音频-视觉指令数据集中基本缺失。这些数据集通常提供粗粒度的问答对或文本理由，而不定位支持每个推理步骤的视觉帧和音频区间。为填补这一空白，我们开发了一种可扩展的数据处理流水线，包含音频-视频交错推理轨迹，并构建了LatentOmni-Instruct-35K，一个专为交叉模态推理任务设计的高质量数据集。如图1 (https://arxiv.org/html/2605.22012#S1.F1)所示，与纯显式CoT推理方法相比，LatentOmni显著提高了对原始音频-视觉（AV）模态的注意力，特别是在AV对齐任务上。此外，大量实验表明，LatentOmni在所有四个基准测试中均取得了所评估开源模型中的最佳结果，以明显优势优于基础模型和显式文本CoT基线。简而言之，我们的贡献总结如下： - • 我们提出LatentOmni，一种新颖的音频-视觉推理框架，它通过定制的后训练流程使MLLMs能够在统一潜在空间中进行联合推理。 - • 我们在潜在空间中引入显式特征级监督和全模态同步位置编码（OSPE），以促进交叉模态时间对齐，从而有效保持对音频-视觉模态的注意力并桥接音频-视觉与文本语义。 - • 我们开发了一种新颖的音频-视觉交错CoT数据合成流水线，并构建了LatentOmni-Instruct-35K，一个高质量数据集，填补了复杂交叉模态潜在推理的定制训练数据空白。 - • 我们的广泛实验表明，LatentOmni在挑战性基准上显著优于显式文本CoT基线，并取得了最先进的开源性能，证实了其在鲁棒多模态理解方面的巨大潜力。 ## 2 相关工作 ### 2.1 多模态大语言模型推理 多模态大语言模型（MLLMs）最初旨在为LLMs装备多样的感知能力[11 (https://arxiv.org/html/2605.22012#bib.bib18),19 (https://arxiv.org/html/2605.22012#bib.bib19),29 (https://arxiv.org/html/2605.22012#bib.bib61),37 (https://arxiv.org/html/2605.22012#bib.bib5)]；然而，为了应对复杂的现实世界任务，研究已逐渐转向增强其推理能力。实现这一目标的主流范式是利用显式的链式技术[36 (https://arxiv.org/html/2605.22012#bib.bib14),28 (https://arxiv.org/html/2605.22012#bib.bib15),39 (https://arxiv.org/html/2605.22012#bib.bib22),23 (https://arxiv.org/html/2605.22012#bib.bib24),34 (https://arxiv.org/html/2605.22012#bib.bib6)]。通过将文本建立为跨模态整合的主要语义桥梁，这些模型可以通过自然语言理由有效分解复杂任务[8 (https://arxiv.org/html/2605.22012#bib.bib23)]。这种以文本为中心的推理方法在单个视觉和音频领域已显示出令人鼓舞的进展，并自然扩展到驱动最近的像Gemini[33 (https://arxiv.org/html/2605.22012#bib.bib21)]、Video-LLaMA系列[51 (https://arxiv.org/html/2605.22012#bib.bib20)]和Qwen-Omni系列[42 (https://arxiv.org/html/2605.22012#bib.bib43)]这样的全模态框架。尽管被广泛采用，最近的研究揭示，这种离散推理范式从根本上限制了复杂的跨模态推理[24 (https://arxiv.org/html/2605.22012#bib.bib29),55 (https://arxiv.org/html/2605.22012#bib.bib63)]。将高维音频-视觉信号强制通过狭窄的文本瓶颈不可避免地导致信息丢失。此外，这种以文本为中心的抽象导致对原始音频-视觉信号关注不足。这种不平衡导致感知脱离和多模态幻觉，即生成的理由与实际底层证据脱钩[26 (https://arxiv.org/html/2605.22012#bib.bib31),9 (https://arxiv.org/html/2605.22012#bib.bib27)]。尽管最近的工具增强方法（例如，用音频、图像和视频思考）[41 (https://arxiv.org/html/2605.22012#bib.bib25),31 (https://arxiv.org/html/2605.22012#bib.bib32),52 (https://arxiv.org/html/2605.22012#bib.bib26),44 (https://arxiv.org/html/2605.22012#bib.bib7)]试图缓解这一问题，但它们未能从根本上解决对跨模态输入的内在忽视。因此，这些限制严重阻碍了显式CoT推理的可扩展性[16 (https://arxiv.org/html/2605.22012#bib.bib30)]。 ### 2.2 潜在空间推理 为了缓解离散token生成的限制，最近的研究探索了直接在连续潜在空间中进行推理[12 (https://arxiv.org/html/2605.22012#bib.bib39),13 (https://arxiv.org/html/2605.22012#bib.bib33),49 (https://arxiv.org/html/2605.22012#bib.bib40)]。作为这一方向的先驱工作，Coconut[13 (https://arxiv.org/html/2605.22012#bib.bib33)]通过在模型的隐藏状态中完全执行推理步骤，绕过了中间文本token的自回归生成。这种连续推理范式随后被扩展到多模态领域，以更好地适应连续的现实世界感知信号[2 (https://arxiv.org/html/2605.22012#bib.bib42)]。在此背景下，当前研究通常遵循两种主流方法：一些工作设计特定的训练框架[17 (https://arxiv.org/html/2605.22012#bib.bib35),35 (https://arxiv.org/html/2605.22012#bib.bib36),22 (https://arxiv.org/html/2605.22012#bib.bib37)]以优化潜在空间中的推理轨迹，而另一些则开发无需训练的推理机制[20 (https://arxiv.org/html/2605.22012#bib.bib38)]直接从预训练表示中引出潜在推理能力。尽管有这些进展，现有的潜在推理方法主要关注纯文本或单模态扩展，如视觉-文本整合[35 (https://arxiv.org/html/2605.22012#bib.bib36),17 (https://arxiv.org/html/2605.22012#bib.bib35),20 (https://arxiv.org/html/2605.22012#bib.bib38),27 (https://arxiv.org/html/2605.22012#bib.bib41)]。动态音频-视觉（AV）信号在统一连续空间中的联合理解和推理仍未得到充分探索。认识到这一空白，我们的工作引入了LatentOmni，将连续潜在推理扩展到全模态场景，明确解决了跨模态AV整合的时间和语义对齐问题。 ## 3 方法 我们提出LatentOmni，一个用于统一潜在空间中音频-视觉推理的后训练框架。如图2 (https://arxiv.org/html/2605.22012#S3.F2)所示，该框架结合了交错的文本-潜在推理、同步的音频-视觉潜在表示、专用的交错推理数据集以及将潜在状态锚定到原生感知证据的训练目标。我们首先描述推理过程和潜在表示设计，然后介绍数据合成流水线和训练目标。 参见图注图 2:LatentOmni概述。左：模型在文本生成和潜在推理之间交替。右：训练结合了文本预测、潜在对齐和时间同步目标。 ### 3.1 音频-视觉潜在推理 纯文本CoT提供了有用的逻辑结构，但对于回顾密集的音频-视觉证据效率不高。因此LatentOmni在显式的文本推理阶段和直接操作连续音频-视觉状态的潜在推理阶段之间交替进行。给定编码后的视觉特征Hᵛ、音频特征Hᵃ和文本查询Hq，模型自回归生成文本token和潜在状态的混合序列。当需要重新审视音频-视觉证据时，它会发出一个特殊token `<Unified_Latent>` ，将解码从离散词汇空间V切换到连续潜在空间R^d。在生成K个潜在嵌入后，我们显式插入一个停止token `</Unified_Latent>` 以终止连续推理阶段并恢复显式文本生成。产生的推理轨迹为 S = [w1:i, u, z1:K, u', wi+1:j, u, zK+1:2K, u', ..., a], (1) 其中w表示文本token，u是`<Unified_Latent>`触发token，u'是插入的`</Unified_Latent>`停止token，z表示连续潜在推理状态，a是最终答案。这种设计将文本作为高级逻辑的支架，同时为证据密集型跨模态推理保留潜在状态。我们在第4.3节 (https://arxiv.org/html/2605.22012#S4.SS3) 中分析潜在长度K的影响。 ### 3.2 统一潜在表示与时间对齐 剩余的设计问题是如何表示潜在推理状态，同时保持跨模态的时间对应关系。在由u触发的每个潜在推理阶段，模型自回归生成一系列连续状态。在第k个潜在步骤，潜在表示zₖ∈R^d被实例化为语言建模头之前的transformer骨干网络的最后一层隐藏状态（图2 (https://arxiv.org/html/2605.22012#S3.F2)，左）： zₖ = LM_θ^(L)(Hᵛ, Hᵃ, Hq, S, ...) 

（由于原文中公式在截断处，这里保留了英文表达，但实际翻译时应当遵循原文格式。但在思考中没有完整公式，后面部分原文也更复杂。按照原文继续。）

但注意，原文后面有公式和更多内容，但用户只提供了到“"question_difficulty": , "deductive_requirement": }, "classification": { "category_id": , "category_name": "", "modality_dependency": "", "confidence": , "reasoning": "" } } `` Figure 7:Prompt used to evaluate...” 为止的部分。但这似乎是prompt，不是完整的文章。可能原文在Figure 7之后还有，但用户只提供了这些。我们需要完整翻译提供的所有内容。

从提供的文本看，似乎是不完整的？但用户明确提供了整段文本，我们就翻译所给内容。

注意：在Section 3.2之后，原文有公式和更多解释，但用户提供的文本在“图7：Prompt used to evaluate the intrinsic quality and modality depend”处结束。可能用户想让我们翻译到那里。

所以我们将翻译所给的全部文本，包括图7的prompt。

翻译时，注意图7中的prompt是JSON格式，应该保持原样，但可以翻译注释之类的？原文中图7后面的内容在“Figure 7:Prompt used to evaluate the intrinsic quality and modality dependency of the generated reasoning trajectories.” 后面似乎没有更多文字。我们按原样翻译。

由于原文是markdown，我们要保留所有格式，包括代码块（三个反引号）。在翻译时，代码块内的内容不应翻译（如JSON键值对），但可以解释键名？为了自然，可以保留英文键，但注释性文字可以翻译。但用户要求“保持专有名词英文”，JSON键名属于技术术语，通常保留。所以代码块内的JSON保持原样，但周围的文字翻译。

最终输出只有翻译后的markdown。注意不要有任何额外解释或包装。# 重新思考统一音频-视觉潜在推理的全模态理解 来源: https://arxiv.org/html/2605.22012 Yifan Dai¹,², Zhenhua Wu², Bohan Zeng³,², Daili Hua³, Jialing Liu⁷, Bozhou Li³,², Yuran Wang³,², Chengzhuo Tong³,², Hao Liang³, Xiaochen Ma⁴, Junbo Niu³, Tianyu Guo³, Yang Shi³,², Yue Ding⁵,², Yiyan Ji⁶,², Bingyin Mei⁸, Yushuo Guan², Yuanxing Zhang², Pengfei Wan², Fangcheng Fu¹, Wentao Zhang³ ¹上海交通大学AI学院, ²快手科技Kling团队, ³北京大学, ⁴香港科技大学, ⁵中国科学院自动化研究所, ⁶南京大学, ⁷中国人民大学, ⁸清华大学 ###### 摘要 联合音频-视觉推理对于全模态理解至关重要，然而当前的多模态大语言模型（MLLMs）在需要两个模态的细粒度证据进行推理时仍然存在困难。一个核心限制是，基于显式文本的思维链（CoT）将连续的音频-视觉信号压缩为离散的token，削弱了时间对齐能力，并将中间推理过程偏向于语言先验。我们认为，统一潜在空间是进行此类推理的更好媒介，因为它保留了密集的感知信息，同时与自回归生成兼容。基于这一见解，我们提出LatentOmni，一种交叉模态推理框架，它将文本推理与音频-视觉潜在状态交错进行。LatentOmni引入特征级监督，使潜在推理状态与任务相关的感知特征对齐，并使用全模态同步位置编码（OSPE）保持潜在音频和视觉状态之间的时间一致性。我们进一步构建了LatentOmni-Instruct-35K数据集，包含音频-视觉交错推理轨迹，用于监督潜在空间推理。在多个音频-视觉推理基准上的全面评估表明，LatentOmni在所评估的开源模型中取得了最佳性能，并且持续优于显式文本CoT基线，支持将潜在空间联合推理作为实现更强全模态理解的有前途途径。 ## 1 引言 现实世界中的信息本质上是多模态的[14 (https://arxiv.org/html/2605.22012#bib.bib45),57 (https://arxiv.org/html/2605.22012#bib.bib44)]，人工代理必须联合解释所见和所闻，以理解事件、因果关系和上下文[58 (https://arxiv.org/html/2605.22012#bib.bib1),1 (https://arxiv.org/html/2605.22012#bib.bib2),54 (https://arxiv.org/html/2605.22012#bib.bib60),48 (https://arxiv.org/html/2605.22012#bib.bib10)]。最近的多模态大语言模型（MLLMs）在音频-视觉感知任务（如字幕生成和定位）上取得了显著进展[3 (https://arxiv.org/html/2605.22012#bib.bib3),53 (https://arxiv.org/html/2605.22012#bib.bib59),4 (https://arxiv.org/html/2605.22012#bib.bib9),30 (https://arxiv.org/html/2605.22012#bib.bib62),7 (https://arxiv.org/html/2605.22012#bib.bib4),43 (https://arxiv.org/html/2605.22012#bib.bib8)]，但在需要跨模态整合细粒度证据的推理问题上仍受限[18 (https://arxiv.org/html/2605.22012#bib.bib46),40 (https://arxiv.org/html/2605.22012#bib.bib17)]。这一差距之所以重要，是因为音频-视觉理解不仅依赖于识别单个信号，还依赖于对其时间和语义交互的推理。我们识别出当前MLLMs执行推理的一个关键瓶颈。大多数现有方法依赖于显式或结构化的基于文本的思维链（CoT）[38 (https://arxiv.org/html/2605.22012#bib.bib13),36 (https://arxiv.org/html/2605.22012#bib.bib14),28 (https://arxiv.org/html/2605.22012#bib.bib15),56 (https://arxiv.org/html/2605.22012#bib.bib16)]，它将高维音频-视觉证据映射为离散的文本token。这种文本瓶颈会压缩时间对齐的细节，并促使模型在推理过程中依赖语言先验而非原生感知证据。如图1 (https://arxiv.org/html/2605.22012#S1.F1)所示，纯显式文本CoT因此倾向于忽视原始音频-视觉输入，限制了模型利用诸如时间同步之类的细粒度跨模态线索的能力。 参见图注图 1:LatentOmni与显式文本CoT基线（详见4.1 (https://arxiv.org/html/2605.22012#S4.SS1)）的比较。（左）定性上看，与基线不同，LatentOmni准确锚定关键的音频-视觉（AV）线索（由热图指示）以正确回答。（右）定量上，它在Daily-Omni基准的各任务中保持了显著更高的AV token注意力比率，确保对原始模态的鲁棒对齐。 我们认为，这种瓶颈可以通过将部分推理过程保留在连续潜在空间中得到缓解，因为细粒度的音频-视觉特征比离散化的文本解释更能直接保留。基于这一视角，我们提出LatentOmni，一种后训练框架，它在统一潜在空间中将文本推理与音频-视觉潜在状态交错进行。为了保持推理与原始模态的对齐，LatentOmni引入特征级监督，使潜在推理状态与任务相关的音频-视觉片段对齐，鼓励模型在整个推理过程中保留并关注原生感知证据。为了保持跨模态的时间一致性，我们进一步引入了全模态同步位置编码（OSPE），它将时间对齐的多模态RoPE[42 (https://arxiv.org/html/2605.22012#bib.bib43)]扩展到同步的潜在音频和视觉特征。这些设计共同使潜在状态成为音频、视觉和文本之间的密集桥梁，同时保留文本推理的结构性优势。在潜在空间中实施特征级监督需要具有预标注的、与推理相关的音频-视觉片段的CoT数据，而这种监督在当前音频-视觉指令数据集中基本缺失。这些数据集通常提供粗粒度的问答对或文本理由，而不定位支持每个推理步骤的视觉帧和音频区间。为填补这一空白，我们开发了一种可扩展的数据处理流水线，包含音频-视频交错推理轨迹，并构建了LatentOmni-Instruct-35K，一个专为交叉模态推理任务设计的高质量数据集。如图1 (https://arxiv.org/html/2605.22012#S1.F1)所示，与纯显式CoT推理方法相比，LatentOmni显著提高了对原始音频-视觉（AV）模态的注意力，特别是在AV对齐任务上。此外，大量实验表明，LatentOmni在所有四个基准测试中均取得了所评估开源模型中的最佳结果，以明显优势优于基础模型和显式文本CoT基线。简而言之，我们的贡献总结如下： - • 我们提出LatentOmni，一种新颖的音频-视觉推理框架，它通过定制的后训练流程使MLLMs能够在统一潜在空间中进行联合推理。 - • 我们在潜在空间中引入显式特征级监督和全模态同步位置编码（OSPE），以促进交叉模态时间对齐，从而有效保持对音频-视觉模态的注意力并桥接音频-视觉与文本语义。 - • 我们开发了一种新颖的音频-视觉交错CoT数据合成流水线，并构建了LatentOmni-Instruct-35K，一个高质量数据集，填补了复杂交叉模态潜在推理的定制训练数据空白。 - • 我们的广泛实验表明，LatentOmni在挑战性基准上显著优于显式文本CoT基线，并取得了最先进的开源性能，证实了其在鲁棒多模态理解方面的巨大潜力。 ## 2 相关工作 ### 2.1 多模态大语言模型推理 多模态大语言模型（MLLMs）最初旨在为LLMs装备多样的感知能力[11 (https://arxiv.org/html/2605.22012#bib.bib18),19 (https://arxiv.org/html/2605.22012#bib.bib19),29 (https://arxiv.org/html/2605.22012#bib.bib61),37 (https://arxiv.org/html/2605.22012#bib.bib5)]；然而，为了应对复杂的现实世界任务，研究已逐渐转向增强其推理能力。实现这一目标的主流范式是利用显式的链式技术[36 (https://arxiv.org/html/2605.22012#bib.bib14),28 (https://arxiv.org/html/2605.22012#bib.bib15),39 (https://arxiv.org/html/2605.22012#bib.bib22),23 (https://arxiv.org/html/2605.22012#bib.bib24),34 (https://arxiv.org/html/2605.22012#bib.bib6)]。通过将文本建立为跨模态整合的主要语义桥梁，这些模型可以通过自然语言理由有效分解复杂任务[8 (https://arxiv.org/html/2605.22012#bib.bib23)]。这种以文本为中心的推理方法在单个视觉和音频领域已显示出令人鼓舞的进展，并自然扩展到驱动最近的像Gemini[33 (https://arxiv.org/html/2605.22012#bib.bib21)]、Video-LLaMA系列[51 (https://arxiv.org/html/2605.22012#bib.bib20)]和Qwen-Omni系列[42 (https://arxiv.org/html/2605.22012#bib.bib43)]这样的全模态框架。尽管被广泛采用，最近的研究揭示，这种离散推理范式从根本上限制了复杂的跨模态推理[24 (https://arxiv.org/html/2605.22012#bib.bib29),55 (https://arxiv.org/html/2605.22012#bib.bib63)]。将高维音频-视觉信号强制通过狭窄的文本瓶颈不可避免地导致信息丢失。此外，这种以文本为中心的抽象导致对原始音频-视觉信号关注不足。这种不平衡导致感知脱离和多模态幻觉，即生成的理由与实际底层证据脱钩[26 (https://arxiv.org/html/2605.22012#bib.bib31),9 (https://arxiv.org/html/2605.22012#bib.bib27)]。尽管最近的工具增强方法（例如，用音频、图像和视频思考）[41 (https://arxiv.org/html/2605.22012#bib.bib25),31 (https://arxiv.org/html/2605.22012#bib.bib32),52 (https://arxiv.org/html/2605.22012#bib.bib26),44 (https://arxiv.org/html/2605.22012#bib.bib7)]试图缓解这一问题，但它们未能从根本上解决对跨模态输入的内在忽视。因此，这些限制严重阻碍了显式CoT推理的可扩展性[16 (https://arxiv.org/html/2605.22012#bib.bib30)]。 ### 2.2 潜在空间推理 为了缓解离散token生成的限制，最近的研究探索了直接在连续潜在空间中进行推理[12 (https://arxiv.org/html/2605.22012#bib.bib39),13 (https://arxiv.org/html/2605.22012#bib.bib33),49 (https://arxiv.org/html/2605.22012#bib.bib40)]。作为这一方向的先驱工作，Coconut[13 (https://arxiv.org/html/2605.22012#bib.bib33)]通过在模型的隐藏状态中完全执行推理步骤，绕过了中间文本token的自回归生成。这种连续推理范式随后被扩展到多模态领域，以更好地适应连续的现实世界感知信号[2 (https://arxiv.org/html/2605.22012#bib.bib42)]。在此背景下，当前研究通常遵循两种主流方法：一些工作设计特定的训练框架[17 (https://arxiv.org/html/2605.22012#bib.bib35),35 (https://arxiv.org/html/2605.22012#bib.bib36),22 (https://arxiv.org/html/2605.22012#bib.bib37)]以优化潜在空间中的推理轨迹，而另一些则开发无需训练的推理机制[20 (https://arxiv.org/html/2605.22012#bib.bib38)]直接从预训练表示中引出潜在推理能力。尽管有这些进展，现有的潜在推理方法主要关注纯文本或单模态扩展，如视觉-文本整合[35 (https://arxiv.org/html/2605.22012#bib.bib36),17 (https://arxiv.org/html/2605.22012#bib.bib35),20 (https://arxiv.org/html/2605.22012#bib.bib38),27 (https://arxiv.org/html/2605.22012#bib.bib41)]。动态音频-视觉（AV）信号在统一连续空间中的联合理解和推理仍未得到充分探索。认识到这一空白，我们的工作引入了LatentOmni，将连续潜在推理扩展到全模态场景，明确解决了跨模态AV整合的时间和语义对齐问题。 ## 3 方法 我们提出LatentOmni，一个用于统一潜在空间中音频-视觉推理的后训练框架。如图2 (https://arxiv.org/html/2605.22012#S3.F2)所示，该框架结合了交错的文本-潜在推理、同步的音频-视觉潜在表示、专用的交错推理数据集以及将潜在状态锚定到原生感知证据的训练目标。我们首先描述推理过程和潜在表示设计，然后介绍数据合成流水线和训练目标。 参见图注图 2:LatentOmni概述。左：模型在文本生成和潜在推理之间交替。右：训练结合了文本预测、潜在对齐和时间同步目标。 ### 3.1 音频-视觉潜在推理 纯文本CoT提供了有用的逻辑结构，但对于回顾密集的音频-视觉证据效率不高。因此LatentOmni在显式的文本推理阶段和直接操作连续音频-视觉状态的潜在推理阶段之间交替进行。给定编码后的视觉特征Hᵛ、音频特征Hᵃ和文本查询Hq，模型自回归生成文本token和潜在状态的混合序列。当需要重新审视音频-视觉证据时，它会发出一个特殊token `<Unified_Latent>` ，将解码从离散词汇空间V切换到连续潜在空间R^d。在生成K个潜在嵌入后，我们显式插入一个停止token `</Unified_Latent>` 以终止连续推理阶段并恢复显式文本生成。产生的推理轨迹为 S = [w₁ᵢ, u, z₁ₖ, u', wᵢ₊₁ⱼ, u, zₖ₊₁₂ₖ, u', ..., a], (1) 其中w表示文本token，u是`<Unified_Latent>`触发token，u'是插入的`</Unified_Latent>`停止token，z表示连续潜在推理状态，a是最终答案。这种设计将文本作为高级逻辑的支架，同时为证据密集型跨模态推理保留潜在状态。我们在第4.3节 (https://arxiv.org/html/2605.22012#S4.SS3) 中分析潜在长度K的影响。 ### 3.2 统一潜在表示与时间对齐 剩余的设计问题是如何表示潜在推理状态，同时保持跨模态的时间对应关系。在由u触发的每个潜在推理阶段，模型自回归生成一系列连续状态。在第k个潜在步骤，潜在表示zₖ∈R^d被实例化为语言建模头之前的transformer骨干网络的最后一层隐藏状态（图2 (https://arxiv.org/html/2605.22012#S3.F2)，左）： zₖ = LM_θ⁽ᴸ⁾(Hᵛ, Hᵃ, Hq, S, "question_difficulty": , "deductive_requirement": }, "classification": { "category_id": , "category_name": "", "modality_dependency": "", "confidence": , "reasoning": "" } } `` 图 7:用于评估生成推理轨迹的内在质量和模态依赖性的提示。
LatentOmni：通过统一视听潜在推理重新思考全模态理解

相似文章

Light-Omni：带长期记忆的智能体视频理解中反射优先于推理

原生主动感知作为全模态理解的推理方式

超越文本主导：理解全模态大语言模型的模态偏好

OmniVideo-100K：一个通过结构化脚本和证据链进行音视频推理的数据集

检索、整合与综合：空间-语义接地潜层视觉推理

提交意见反馈