audio-visual

#audio-visual

Wan-Streamer v0.1：端到端实时交互基础模型

Hugging Face Daily Papers ↗ · 2天前缓存

Wan-Streamer是一个统一的端到端多模态模型，用于实时音视频交互，采用因果注意力机制，并集成处理视觉、音频和文本模态，实现了亚秒级延迟。

0 人收藏 0 人点赞

#audio-visual

MaineCoon: 追求实时视听社交世界模型

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

MaineCoon是一个220亿参数的实时视听自回归模型，用于社交世界建模，能够在单个GPU上以高达47.5 FPS进行流式生成，并引入了新颖的训练技术和智能体推理框架。

0 人收藏 0 人点赞

#audio-visual

OmniVideo-100K：一个通过结构化脚本和证据链进行音视频推理的数据集

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

OmniVideo-100K介绍了一个自动化的数据引擎，通过实体锚定脚本和线索引导的问答生成来提升音视频推理和时间一致性，在多个基准测试上实现了显著的性能提升。

0 人收藏 0 人点赞

#audio-visual

从感知到决策：多模态大语言模型中听觉与视觉感知的信息流

arXiv cs.AI ↗ · 2026-06-10 缓存

本文研究了音频与视觉信息在音频-视觉大语言模型（AVLLMs）中的流动方式，揭示了AVLLMs根据输入配置采取顺序或并行路由，并且某些token在信息传输后可被丢弃以提高效率。

0 人收藏 0 人点赞

#audio-visual

OmniMem: 面向流式音视频大模型的扰动感知记忆压缩

arXiv cs.AI ↗ · 2026-06-09 缓存

OmniMem 引入了一种面向流式音视频大模型的模态感知记忆分配与扰动感知选择策略，在长视频基准测试上相比压缩基线实现了2-4%的绝对准确率提升。

0 人收藏 0 人点赞

#audio-visual

面向音视频事件定位的层次化语义约束异构图

arXiv cs.AI ↗ · 2026-06-08 缓存

提出了一种层次化语义约束异构图模型，用于开放词汇的音视频事件定位，解决了多个时间尺度上的跨模态一致性问题以及片段级和视频级之间的层次语义约束问题。在OV-AVEL基准上取得了最先进的结果。

0 人收藏 0 人点赞

#audio-visual

原生视听对齐生成

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

NAVA 提出了一种原生视听对齐框架，用于联合音频-视频生成，采用 Align-then-Fuse MMDiT 架构，以 6.3B 参数实现了更好的同步性和可控性。

0 人收藏 0 人点赞

#audio-visual

OmniInteract：面向实时全模态助手的真实世界流式交互基准测试

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试，评估在线音视频处理能力，要求具备时间定位和交互式响应。实验表明，当前模型表现不佳，最佳整体 IA-QTF1 分数仅为 0.368。

0 人收藏 0 人点赞

#audio-visual

LatentOmni：通过统一视听潜在推理重新思考全模态理解

arXiv cs.CL ↗ · 2026-05-22 缓存

LatentOmni提出了一种用于视听推理的统一潜在空间，避免了基于文本的思维链带来的信息损失。在视听推理基准测试中，它在开源模型中达到了最先进的性能。

0 人收藏 0 人点赞

#audio-visual

EMO-BOOST：情绪增强的视听特征提升深度伪造检测的泛化能力

arXiv cs.AI ↗ · 2026-05-20

本文提出Emo-Boost，一种多模态深度伪造检测框架，利用情绪线索（视听情绪识别）作为高层语义信号，提升对未见操纵类型的泛化能力，在FakeAVCeleb数据集上实现了平均AUC提升2.1%。

0 人收藏 0 人点赞

#audio-visual

AuralSAM2: 通过金字塔视听特征提示赋予SAM2听觉能力

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

AuralSAM2通过AuralFuser模块将音频集成到SAM2中，该模块从视听特征生成稀疏和密集提示，在保持交互效率的同时增强跨模态分割。

0 人收藏 0 人点赞

#audio-visual

当视觉为声音代言

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

本文发现，具备视频处理能力的多模态大语言模型（MLLMs）表面上似乎能够理解音频，但实际上依赖视觉线索，这一失败模式被称为视听Clever Hans效应。我们提出了Thud，一个基于干预的探查框架来诊断该问题，并提出了一种对齐方案，将视听一致性提升了28个百分点。

0 人收藏 0 人点赞

#audio-visual

大型基础模型中的视听智能

Hugging Face Daily Papers ↗ · 2026-05-05 缓存

本综述论文全面回顾了大型基础模型中的视听智能，建立了统一的分类体系，综合了核心方法论，并概述了关键数据集、基准和开放性研究挑战。

0 人收藏 0 人点赞

#audio-visual

分层编解码扩散模型用于视频到语音生成

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

# 论文页面 - 分层编解码扩散模型用于视频到语音生成来源：[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构，从视频中生成语音，通过粗到细的双尺度归一化条件，实现更优的音视对齐。视频到语音（VTS）任务旨在无声视频中合成语音，而无需任何音频信号。

0 人收藏 0 人点赞

#audio-visual

Qwen3.5-Omni 技术报告

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

Qwen3.5-Omni 是一个千亿参数的多模态模型，具备先进的音视频理解与生成能力，引入了新颖的 Audio-Visual Vibe Coding，在215项基准测试中取得SOTA结果，同时与 Gemini-3.1 Pro 持平。

0 人收藏 0 人点赞

#audio-visual

LTX-2：高效的联合音视频基础模型

Papers with Code Trending ↗ · 2026-01-06 缓存

LTX-2 是一款高效的联合音视频基础模型。文本内容混合了论文引用和关于国家面临生存威胁的视频脚本，但主要的分类目标是该 AI 模型论文。

0 人收藏 0 人点赞

audio-visual

提交意见反馈