Qwen3.5-Omni 技术报告
摘要
Qwen3.5-Omni 是一个千亿参数的多模态模型,具备先进的音视频理解与生成能力,引入了新颖的 Audio-Visual Vibe Coding,在215项基准测试中取得SOTA结果,同时与 Gemini-3.1 Pro 持平。
查看缓存全文
缓存时间: 2026/04/20 08:27
论文页面 - Qwen3.5-Omni 技术报告
来源:https://huggingface.co/papers/2604.15804
摘要
Qwen3.5-Omni 是一个拥有数千亿参数的大规模多模态模型,在音频-视觉理解与生成方面表现出色,具备先进的架构以及诸如“音频-视觉氛围编码”(Audio-Visual Vibe Coding)等新颖能力。
本文介绍了 Qwen3.5-Omni,这是 Qwen-Omni 模型系列的最新成果。与上一代相比,Qwen3.5-Omni 有了显著进化,参数规模扩展到数千亿,并支持 256k 的上下文长度。通过利用包含异质文本-视觉对以及超过 1 亿小时音频-视觉内容的海量数据集,该模型展现出强大的全模态能力。Qwen3.5-Omni-plus 在 215 个音频及音频-视觉理解(https://huggingface.co/papers?q=audio-visual%20understanding)、推理和交互子任务及基准测试中达到了最先进水平,在关键音频任务上超越了 Gemini-3.1 Pro,并在全面音频-视觉理解(https://huggingface.co/papers?q=audio-visual%20understanding)方面与其持平。在架构上,Qwen3.5-Omni 在思考者(Thinker)和说话者(Talker)模块均采用了混合注意力混合专家(https://huggingface.co/papers?q=Hybrid%20Attention%20Mixture-of-Experts)(MoE(https://huggingface.co/papers?q=MoE))框架,实现了高效的长序列推理。该模型支持复杂的交互,能够处理超过 10 小时的音频理解和 400 秒的 720P 视频(以 1 帧/秒采样)。为了解决流式语音合成(https://huggingface.co/papers?q=speech%20synthesis)中常因文本与语音分词器编码效率差异而导致的固有不稳定和不自然问题,我们引入了 ARIA(https://huggingface.co/papers?q=ARIA)。ARIA(https://huggingface.co/papers?q=ARIA)能够动态对齐文本和语音单元,在最小化延迟影响的同时,显著提升对话语音的稳定性和韵律。此外,Qwen3.5-Omni 拓展了语言边界,支持多语言理解(https://huggingface.co/papers?q=multilingual%20understanding)以及 10 种语言的语音生成,并带有类人的情感细微差别。最后,Qwen3.5-Omni 展现出出色的音频-视觉定位(https://huggingface.co/papers?q=audio-visual%20grounding)能力,能够生成带有精确时间同步和自动场景分割的脚本级结构化描述。值得注意的是,我们观察到全模态模型中涌现出一种新能力:直接根据音频-视觉指令进行编码,我们称之为“音频-视觉氛围编码”(https://huggingface.co/papers?q=Audio-Visual%20Vibe%20Coding)。
查看 arXiv 页面 (https://arxiv.org/abs/2604.15804)查看 PDF (https://arxiv.org/pdf/2604.15804)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.15804)
在您的 agent 中获取此论文:
hf papers read 2604.15804
还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2604.15804 以便从此页面链接。
引用此论文的数据集0
无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2604.15804 以便从此页面链接。
引用此论文的 Spaces0
无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2604.15804 以便从此页面链接。
包含此论文的收藏0
无收藏包含此论文
请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以便从此页面链接。
相似文章
Qwen/Qwen3.6-35B-A3B-FP8
阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。
Qwen/Qwen3.6-35B-A3B
Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。
Qwen/Qwen3.6-27B
Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。
Qwen/Qwen3.6-27B-FP8
阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。
我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4
在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。