LatentOmni：通过统一音视频潜在推理重新思考全模态理解

Hugging Face Daily Papers 2026/05/21 00:00 论文

摘要

LatentOmni 提出了一种跨模态推理框架，将文本推理与音视频潜在状态交错结合，在音视频推理任务上优于显式文本链式思考方法。

联合音视频推理对于全模态理解至关重要，然而当前的多模态大语言模型在需要来自两种模态的细粒度证据进行推理时仍存在困难。一个核心限制在于，显式的文本链式思考（CoT）将连续的音频-视觉信号压缩为离散的 token，削弱了时间定位能力，并将中间推理过程偏向语言先验。我们认为，统一的潜在空间更适合进行此类推理，因为它保留了密集的感官信息，同时与自回归生成兼容。基于这一洞察，我们提出了 LatentOmni，一个跨模态推理框架，将文本推理与音视频潜在状态交错结合。LatentOmni 引入特征级监督，使潜在推理状态与任务相关的感官特征对齐，并使用 Omni-Sync 位置嵌入（OSPE）来保持潜在音频和视觉状态之间的时间一致性。我们进一步构建了 LatentOmni-Instruct-35K 数据集，其中包含音视频交错推理轨迹，用于监督潜在空间推理。在多个音视频推理基准上的全面评估表明，LatentOmni 在评估的开源模型中取得了最佳性能，并且持续优于显式文本 CoT 基线，支持将潜在空间联合推理作为通向更强全模态理解的一条有前景的路径。

查看原文

查看缓存全文

缓存时间: 2026/05/22 06:27

论文页面 - LatentOmni：通过统一音视频潜在推理重新思考全模态理解

来源：https://huggingface.co/papers/2605.22012 作者：

，

摘要

LatentOmni 是一个跨模态推理框架，通过特征级监督和时间一致性嵌入，将文本推理与音视频潜在状态交错结合，在音视频推理任务中优于显式的基于文本的思维链方法。

联合音视频推理 (https://huggingface.co/papers?q=audio-visual%20reasoning) 是全模态理解的基础，然而当前的多模态大语言模型 (https://huggingface.co/papers?q=multimodal%20large%20language%20models) (MLLMs) 在需要从双模态获取细粒度证据的推理场景中仍然表现不佳。一个核心限制在于：显式的基于文本的思维链 (https://huggingface.co/papers?q=chain-of-thought) (CoT) 将连续的音视频信号压缩为离散词元，削弱了时间定位能力，并使中间推理偏向语言先验。我们认为，统一的潜在空间 (https://huggingface.co/papers?q=latent%20space) 是此类推理的更好媒介，因为它能保留密集的感知信息 (https://huggingface.co/papers?q=sensory%20information)，同时保持与自回归生成 (https://huggingface.co/papers?q=autoregressive%20generation) 的兼容性。基于这一洞察，我们提出了 LatentOmni，一个跨模态推理 (https://huggingface.co/papers?q=cross-modal%20reasoning) 框架，它将文本推理与音视频潜在状态交错结合。LatentOmni 引入了特征级监督 (https://huggingface.co/papers?q=feature-level%20supervision) 来对齐潜在推理状态与任务相关的感知特征，并使用全同步位置编码 (https://huggingface.co/papers?q=Omni-Sync%20Position%20Embedding) (OSPE) 来维持潜在音频与视觉状态之间的时间一致性 (https://huggingface.co/papers?q=temporal%20consistency)。我们进一步构建了 LatentOmni-Instruct-35K，一个包含音视频交错推理轨迹的数据集，用于监督潜在空间推理。在多个音视频推理 (https://huggingface.co/papers?q=audio-visual%20reasoning) 基准上的全面评估表明，LatentOmni 在已评估的开源模型中取得了最佳性能，并且始终优于显式文本 CoT 基线，这支持了潜在空间联合推理作为实现更强全模态理解的一条有前途的路径。

查看 arXiv 页面 (https://arxiv.org/abs/2605.22012)查看 PDF (https://arxiv.org/pdf/2605.22012)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22012)

在你的智能体中获取此论文：

hf papers read 2605.22012

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有与此论文关联的模型

在模型 README.md 中引用 arxiv.org/abs/2605.22012 以从此页面链接。

引用此论文的数据集0

没有与此论文关联的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.22012 以从此页面链接。

引用此论文的 Spaces0

没有与此论文关联的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.22012 以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

@grapeot: 推理模型不是 2024 年的石破天惊。很多人第一次看到 o1「思考」十几秒再答题，会觉得模型一夜之间学会了推理。但把时间线拉长，从 CoT prompting（2022）到 o1，中间走了整整四年。三件被混在一起的事： 1. 推理能力…

X AI KOLs Timeline

深度回顾推理模型从2022年CoT到2024年o1/R1的四年演变，指出真正的分水岭不是推理能力的涌现，而是将推理转化为可计费、可调度的资源。

LatentOmni：通过统一音视频潜在推理重新思考全模态理解

论文页面 - LatentOmni：通过统一音视频潜在推理重新思考全模态理解

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

@stanfordnlp: CoT 监测：一个热门安全问题从何而来？ @peterbhase 和 @ChrisGPotts https://ai.stanford.edu/blog/co…

研究求助：观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]

ThinkDeception: 一种可解释的多模态欺骗检测的渐进式强化学习框架

CaVe-VLM-CoT：一个可解释的视觉-语言模型框架

@grapeot: 推理模型不是 2024 年的石破天惊。很多人第一次看到 o1「思考」十几秒再答题，会觉得模型一夜之间学会了推理。但把时间线拉长，从 CoT prompting（2022）到 o1，中间走了整整四年。三件被混在一起的事： 1. 推理能力…

提交意见反馈

论文页面 - LatentOmni：通过统一音视频潜在推理重新思考全模态理解

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

@stanfordnlp: CoT 监测：一个热门安全问题从何而来？ @peterbhase 和 @ChrisGPotts https://ai.stanford.edu/blog/co…

研究求助：观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]

ThinkDeception: 一种可解释的多模态欺骗检测的渐进式强化学习框架

CaVe-VLM-CoT：一个可解释的视觉-语言模型框架

@grapeot: 推理模型不是 2024 年的石破天惊。 很多人第一次看到 o1「思考」十几秒再答题，会觉得模型一夜之间学会了推理。但把时间线拉长，从 CoT prompting（2022）到 o1，中间走了整整四年。 三件被混在一起的事： 1. 推理能力…

提交意见反馈

@grapeot: 推理模型不是 2024 年的石破天惊。很多人第一次看到 o1「思考」十几秒再答题，会觉得模型一夜之间学会了推理。但把时间线拉长，从 CoT prompting（2022）到 o1，中间走了整整四年。三件被混在一起的事： 1. 推理能力…