LatentOmni:通过统一音视频潜在推理重新思考全模态理解
摘要
LatentOmni 提出了一种跨模态推理框架,将文本推理与音视频潜在状态交错结合,在音视频推理任务上优于显式文本链式思考方法。
查看缓存全文
缓存时间: 2026/05/22 06:27
论文页面 - LatentOmni:通过统一音视频潜在推理重新思考全模态理解
来源:https://huggingface.co/papers/2605.22012 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
LatentOmni 是一个跨模态推理框架,通过特征级监督和时间一致性嵌入,将文本推理与音视频潜在状态交错结合,在音视频推理任务中优于显式的基于文本的思维链方法。
联合音视频推理 (https://huggingface.co/papers?q=audio-visual%20reasoning) 是全模态理解的基础,然而当前的多模态大语言模型 (https://huggingface.co/papers?q=multimodal%20large%20language%20models) (MLLMs) 在需要从双模态获取细粒度证据的推理场景中仍然表现不佳。一个核心限制在于:显式的基于文本的思维链 (https://huggingface.co/papers?q=chain-of-thought) (CoT) 将连续的音视频信号压缩为离散词元,削弱了时间定位能力,并使中间推理偏向语言先验。我们认为,统一的潜在空间 (https://huggingface.co/papers?q=latent%20space) 是此类推理的更好媒介,因为它能保留密集的感知信息 (https://huggingface.co/papers?q=sensory%20information),同时保持与自回归生成 (https://huggingface.co/papers?q=autoregressive%20generation) 的兼容性。基于这一洞察,我们提出了 LatentOmni,一个跨模态推理 (https://huggingface.co/papers?q=cross-modal%20reasoning) 框架,它将文本推理与音视频潜在状态交错结合。LatentOmni 引入了特征级监督 (https://huggingface.co/papers?q=feature-level%20supervision) 来对齐潜在推理状态与任务相关的感知特征,并使用全同步位置编码 (https://huggingface.co/papers?q=Omni-Sync%20Position%20Embedding) (OSPE) 来维持潜在音频与视觉状态之间的时间一致性 (https://huggingface.co/papers?q=temporal%20consistency)。我们进一步构建了 LatentOmni-Instruct-35K,一个包含音视频交错推理轨迹的数据集,用于监督潜在空间推理。在多个音视频推理 (https://huggingface.co/papers?q=audio-visual%20reasoning) 基准上的全面评估表明,LatentOmni 在已评估的开源模型中取得了最佳性能,并且始终优于显式文本 CoT 基线,这支持了潜在空间联合推理作为实现更强全模态理解的一条有前途的路径。
查看 arXiv 页面 (https://arxiv.org/abs/2605.22012)查看 PDF (https://arxiv.org/pdf/2605.22012)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22012)
在你的智能体中获取此论文:
hf papers read 2605.22012
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有与此论文关联的模型
在模型 README.md 中引用 arxiv.org/abs/2605.22012 以从此页面链接。
引用此论文的数据集0
没有与此论文关联的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.22012 以从此页面链接。
引用此论文的 Spaces0
没有与此论文关联的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.22012 以从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
@stanfordnlp: CoT 监测:一个热门安全问题从何而来? @peterbhase 和 @ChrisGPotts https://ai.stanford.edu/blog/co…
本文追溯了思维链(CoT)监测作为一种关键的 AI 安全技术的历史和快速兴起,从首次在 arXiv 上被提及到一年内实现工业部署,并探讨了其在监测和可解释性方面的思想根源。
研究求助:观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]
一项实证研究表明,长篇幅、语义密集且良性的文本能够偏移模型的潜在空间并绕过对齐,促使其生成原本被屏蔽的评论。作者并非专家,请求对其指标进行审计,以区分真正的语义劫持与假象。
ThinkDeception: 一种可解释的多模态欺骗检测的渐进式强化学习框架
ThinkDeception提出了一种新颖框架,利用多模态大语言模型和带有思维链推理的渐进式强化学习策略进行可解释的欺骗检测,在标准基准上取得了最新的最优结果。
CaVe-VLM-CoT:一个可解释的视觉-语言模型框架
CaVe-VLM-CoT是一个基于模块化反思的智能体RAG框架,专为视觉-语言模型设计,通过五阶段流水线强制执行基于证据的推理,在ScienceQA上达到87.1%的准确率,并提出了一套包含23项指标的评估体系。
@grapeot: 推理模型不是 2024 年的石破天惊。 很多人第一次看到 o1「思考」十几秒再答题,会觉得模型一夜之间学会了推理。但把时间线拉长,从 CoT prompting(2022)到 o1,中间走了整整四年。 三件被混在一起的事: 1. 推理能力…
深度回顾推理模型从2022年CoT到2024年o1/R1的四年演变,指出真正的分水岭不是推理能力的涌现,而是将推理转化为可计费、可调度的资源。