Qwen3.5-Omni 技术报告

Hugging Face Daily Papers 2026/04/17 00:00 论文

multimodal-ai audio-visual speech-synthesis mixture-of-experts long-context multilingual

摘要

Qwen3.5-Omni 是一个千亿参数的多模态模型，具备先进的音视频理解与生成能力，引入了新颖的 Audio-Visual Vibe Coding，在215项基准测试中取得SOTA结果，同时与 Gemini-3.1 Pro 持平。

在本工作中，我们介绍了 Qwen3.5-Omni，这是 Qwen-Omni 模型系列的最新进展。与其前身相比，Qwen3.5-Omni 代表了重大演进，其规模达到千亿参数，支持256K上下文长度。通过利用包含异构文本-视觉对和超过1亿小时音视频内容的大规模数据集，该模型展示了强大的全模态能力。Qwen3.5-Omni-plus 在215项音频及音视频理解、推理和交互子任务与基准测试中取得SOTA结果，在关键音频任务上超越 Gemini-3.1 Pro，并在综合音视频理解方面与其持平。在架构上，Qwen3.5-Omni 对 Thinker 和 Talker 均采用混合注意力混合专家（MoE）框架，实现了高效的长序列推理。该模型支持复杂的交互，可理解超过10小时的音频和400秒的720P视频（每秒1帧）。为了解决流式语音合成中固有的不稳定和不自然问题（通常由文本和语音分词器之间的编码效率差异引起），我们引入了 ARIA。ARIA 动态对齐文本和语音单元，显著提升了对话语音的稳定性和韵律，同时对延迟影响极小。此外，Qwen3.5-Omni 拓展了语言边界，支持跨10种语言的多语言理解和语音生成，并带有类人的情感细微差别。最后，Qwen3.5-Omni 展现出卓越的音视频定位能力，能够生成脚本级别的结构化字幕，具有精确的时间同步和自动场景分割功能。值得注意的是，我们观察到全模态模型中出现了一项新能力：直接根据音视频指令进行编码，我们将其称为 Audio-Visual Vibe Coding。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - Qwen3.5-Omni 技术报告

来源：https://huggingface.co/papers/2604.15804

摘要

Qwen3.5-Omni 是一个拥有数千亿参数的大规模多模态模型，在音频-视觉理解与生成方面表现出色，具备先进的架构以及诸如“音频-视觉氛围编码”（Audio-Visual Vibe Coding）等新颖能力。

本文介绍了 Qwen3.5-Omni，这是 Qwen-Omni 模型系列的最新成果。与上一代相比，Qwen3.5-Omni 有了显著进化，参数规模扩展到数千亿，并支持 256k 的上下文长度。通过利用包含异质文本-视觉对以及超过 1 亿小时音频-视觉内容的海量数据集，该模型展现出强大的全模态能力。Qwen3.5-Omni-plus 在 215 个音频及音频-视觉理解（https://huggingface.co/papers?q=audio-visual%20understanding）、推理和交互子任务及基准测试中达到了最先进水平，在关键音频任务上超越了 Gemini-3.1 Pro，并在全面音频-视觉理解（https://huggingface.co/papers?q=audio-visual%20understanding）方面与其持平。在架构上，Qwen3.5-Omni 在思考者（Thinker）和说话者（Talker）模块均采用了混合注意力混合专家（https://huggingface.co/papers?q=Hybrid%20Attention%20Mixture-of-Experts）（MoE（https://huggingface.co/papers?q=MoE））框架，实现了高效的长序列推理。该模型支持复杂的交互，能够处理超过 10 小时的音频理解和 400 秒的 720P 视频（以 1 帧/秒采样）。为了解决流式语音合成（https://huggingface.co/papers?q=speech%20synthesis）中常因文本与语音分词器编码效率差异而导致的固有不稳定和不自然问题，我们引入了 ARIA（https://huggingface.co/papers?q=ARIA）。ARIA（https://huggingface.co/papers?q=ARIA）能够动态对齐文本和语音单元，在最小化延迟影响的同时，显著提升对话语音的稳定性和韵律。此外，Qwen3.5-Omni 拓展了语言边界，支持多语言理解（https://huggingface.co/papers?q=multilingual%20understanding）以及 10 种语言的语音生成，并带有类人的情感细微差别。最后，Qwen3.5-Omni 展现出出色的音频-视觉定位（https://huggingface.co/papers?q=audio-visual%20grounding）能力，能够生成带有精确时间同步和自动场景分割的脚本级结构化描述。值得注意的是，我们观察到全模态模型中涌现出一种新能力：直接根据音频-视觉指令进行编码，我们称之为“音频-视觉氛围编码”（https://huggingface.co/papers?q=Audio-Visual%20Vibe%20Coding）。

查看 arXiv 页面 (https://arxiv.org/abs/2604.15804)查看 PDF (https://arxiv.org/pdf/2604.15804)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.15804)

在您的 agent 中获取此论文：

hf papers read 2604.15804

还没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.15804 以便从此页面链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.15804 以便从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2604.15804 以便从此页面链接。

包含此论文的收藏0

无收藏包含此论文

请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以便从此页面链接。

Qwen3.5-Omni 技术报告

论文页面 - Qwen3.5-Omni 技术报告

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

Qwen/Qwen3.6-35B-A3B-FP8

Qwen/Qwen3.6-35B-A3B

Qwen/Qwen3.6-27B

Qwen/Qwen3.6-27B-FP8

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

提交意见反馈