标签
Wan-Streamer是一个统一的端到端多模态模型,用于实时音视频交互,采用因果注意力机制,并集成处理视觉、音频和文本模态,实现了亚秒级延迟。
MaineCoon是一个220亿参数的实时视听自回归模型,用于社交世界建模,能够在单个GPU上以高达47.5 FPS进行流式生成,并引入了新颖的训练技术和智能体推理框架。
OmniVideo-100K介绍了一个自动化的数据引擎,通过实体锚定脚本和线索引导的问答生成来提升音视频推理和时间一致性,在多个基准测试上实现了显著的性能提升。
本文研究了音频与视觉信息在音频-视觉大语言模型(AVLLMs)中的流动方式,揭示了AVLLMs根据输入配置采取顺序或并行路由,并且某些token在信息传输后可被丢弃以提高效率。
OmniMem 引入了一种面向流式音视频大模型的模态感知记忆分配与扰动感知选择策略,在长视频基准测试上相比压缩基线实现了2-4%的绝对准确率提升。
提出了一种层次化语义约束异构图模型,用于开放词汇的音视频事件定位,解决了多个时间尺度上的跨模态一致性问题以及片段级和视频级之间的层次语义约束问题。在OV-AVEL基准上取得了最先进的结果。
NAVA 提出了一种原生视听对齐框架,用于联合音频-视频生成,采用 Align-then-Fuse MMDiT 架构,以 6.3B 参数实现了更好的同步性和可控性。
OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试,评估在线音视频处理能力,要求具备时间定位和交互式响应。实验表明,当前模型表现不佳,最佳整体 IA-QTF1 分数仅为 0.368。
LatentOmni提出了一种用于视听推理的统一潜在空间,避免了基于文本的思维链带来的信息损失。在视听推理基准测试中,它在开源模型中达到了最先进的性能。
本文提出Emo-Boost,一种多模态深度伪造检测框架,利用情绪线索(视听情绪识别)作为高层语义信号,提升对未见操纵类型的泛化能力,在FakeAVCeleb数据集上实现了平均AUC提升2.1%。
AuralSAM2通过AuralFuser模块将音频集成到SAM2中,该模块从视听特征生成稀疏和密集提示,在保持交互效率的同时增强跨模态分割。
本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。
本综述论文全面回顾了大型基础模型中的视听智能,建立了统一的分类体系,综合了核心方法论,并概述了关键数据集、基准和开放性研究挑战。
# 论文页面 - 分层编解码扩散模型用于视频到语音生成 来源:[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构,从视频中生成语音,通过粗到细的双尺度归一化条件,实现更优的音视对齐。视频到语音(VTS)任务旨在无声视频中合成语音,而无需任何音频信号。
Qwen3.5-Omni 是一个千亿参数的多模态模型,具备先进的音视频理解与生成能力,引入了新颖的 Audio-Visual Vibe Coding,在215项基准测试中取得SOTA结果,同时与 Gemini-3.1 Pro 持平。
LTX-2 是一款高效的联合音视频基础模型。文本内容混合了论文引用和关于国家面临生存威胁的视频脚本,但主要的分类目标是该 AI 模型论文。