MaineCoon: 追求实时视听社交世界模型
摘要
MaineCoon是一个220亿参数的实时视听自回归模型,用于社交世界建模,能够在单个GPU上以高达47.5 FPS进行流式生成,并引入了新颖的训练技术和智能体推理框架。
查看缓存全文
缓存时间: 2026/06/18 15:57
论文页面 — MaineCoon: 追求实时音视频社交世界模型
来源: https://huggingface.co/papers/2606.17800
MaineCoon: 追求实时音视频社交世界模型
Catnip AI 团队
摘要
随着全球越来越多视频内容在社交平台上被消费以进行互动社交,专为社交世界构建的视频生成模型虽然重要,却在以往研究中被严重忽视。在本工作中,我们界定了社交世界模型的位置,并构建了一个原型模型作为迈向这一目标的第一步。虽然以往的世界模型成功模拟了物理环境或游戏世界探索,但它们从根本上脱离了以人为中心的社交动态。它们通常省略关键的听觉信息,或者无法捕捉定义病毒式社交媒体内容的高参与度节奏、情感共鸣与快速对话流。为了弥合这一差距,作为社交世界模型的第一步,我们提出了 MaineCoon,这是首个拥有 220亿参数 的实时音视频自回归模型,能够进行实时流式生成和亚秒级交互,在单块 GPU 上创下了高达 47.5 FPS 的破纪录帧率。据我们所知,MaineCoon 也是首个专为社交互动应用优化的实时音视频生成模型。为了实现高效稳定的训练,我们在 MaineCoon 中引入了多项新技术,包括自重采样、跨模态表征对齐、领域感知偏好优化以及强化在线策略蒸馏 (ROPD)。我们还设计了首个智能体流式推理框架,支持千秒级甚至更长的生成,同时通过智能体缓存管理和提示规划减轻漂移。这些创新显著加速了训练,同时优化了实时推理性能。我们相信,这项工作不仅为高质量、低延迟、长时域音视频自回归模型设定了新的最先进 (SOTA) 性能基准,也指出了下一代 AI 原生社交平台所需的范式转变。
亮点
- ⚡ 单 GPU 实时运行。一个 22B 的互动音视频自回归模型,能够进行流式生成和亚秒级交互,在单块 H100 上实现了高达 47.5 FPS 的破纪录帧率。生成成本大幅降至 每秒钟低于 $0.001,且仍在下降。
- 🌍 新范式:社交世界模型。MaineCoon 定位并作为首个 社交世界模型 的生成核心,为下一代 AI 原生社交平台奠定技术基础。
- 🎓 无强制流式训练。多阶段训练范式——自重采样、跨模态表征对齐、领域感知偏好优化 和 强化在线策略蒸馏 (ROPD)——实现了 22B 规模的原生高效流式音视频训练。
- 🧠 智能体流式推理。智能体推理框架支持千秒级生成,并通过智能体缓存管理、分块提交、长上下文展开和提示规划减轻漂移。
- 📊 SocialVideo-Bench。专注于音视频社交视频生成的新基准,包含 9 个代表性指标,涵盖视觉质量、运动、音频质量、音视频对齐和社交视频和谐度。MaineCoon 在 7 个代表性开源音视频模型中脱颖而出,同时实现了最快的生成速度——为实时社交视频生成树立了新的最先进水平。
展示
精选的 MaineCoon 生成结果 (音频+视频,含声音) 可直接在 GitHub 仓库 (https://github.com/catnip-ai-tech/MaineCoon) 中播放。
🎬 分钟级长篇幅演示 最佳观看方式为访问我们的 博客 (https://mainecoon.tech/blogs)。🕹️ 实时体验 MaineCoon 请访问 体验平台 (https://mainecoon.tech/experience-platform)。
基准测试 — SocialVideo-Bench
表 2. SocialVideo-Bench 的主要量化结果。🐱 MaineCoon (我们的方法) 获得了最佳平均分,并在大多数指标上胜出,包括两个最全面的指标——音视频和谐度 (AVH) 和联合音视频综合评分 (JAVIS)——超越了所有流式和双向基线模型。
| 类型 | 模型 | Vis↑ | Mot↑ | Aud↑ | IB-TV↑ | IB-TA↑ | IB-AV↑ | AV-Al↑ | AVH↑ | JAVIS↑ | 平均↑ |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 双向 T2AV | JavisDiT++ | 4.39 | 2.22 | 4.06 | 0.134 | 0.070 | 0.151 | 0.312 | 0.136 | 0.112 | 0.711 |
| Ovi | 4.44 | 1.89 | 3.76 | 0.138 | 0.079 | 0.191 | 0.412 | 0.188 | 0.162 | 0.779 | |
| JoyAI-Echo | 4.61 | 1.17 | 3.47 | 0.147 | 0.088 | 0.226 | 0.319 | 0.196 | 0.173 | 0.749 | |
| MoVA | 4.66 | 1.68 | 3.69 | 0.133 | 0.105 | 0.258 | 0.359 | 0.245 | 0.216 | 0.842 | |
| LTX-2.3 | 4.10 | 0.99 | 4.06 | 0.132 | 0.111 | 0.311 | 0.334 | 0.287 | 0.247 | 0.848 | |
| 流式 TA2V | LiveAvatar | 4.60 | 1.46 | 4.13 | 0.131 | 0.120 | 0.316 | 0.326 | 0.291 | 0.246 | 0.892 |
| SoulX-FlashTalk | 4.65 | 1.99 | 4.07 | 0.128 | 0.120 | 0.307 | 0.279 | 0.283 | 0.238 | 0.895 | |
| 流式 T2AV | 🐱 MaineCoon (我们的方法) | 4.71 | 1.62 | 4.35 | 0.127 | 0.130 | 0.318 | 0.334 | 0.308 | 0.272 | 0.934 🥇 |
🐱 = 我们的方法 · 粗体 = 最佳, 斜体 = 次佳。指标说明 — Vis: 视觉质量 · Mot: 运动 · Aud: 音频质量 · IB-TV / IB-TA / IB-AV: ImageBind 文本-视频 / 文本-音频 / 音频-视频对齐 · AV-Al: 音视频对齐 · AVH: 音视频和谐度 · JAVIS: 联合音视频综合评分。完整基准和指标定义见技术报告。
表 3. 延迟与模型规模对比。采样吞吐量 (FPS) 在单块 H100 GPU 上以 480P 20 秒生成为基准测量。🐱 MaineCoon (我们的方法) 拥有最大的模型,但速度却最快——比其它流式音视频生成器快高达 7 倍,甚至比 1.3B 的流式视频模型还要快。
| 类型 | 模型 | 参数量 | FPS↑ |
|---|---|---|---|
| 双向 T2AV | JavisDiT++ | 1.8B | 0.87 |
| Ovi | 11B | 0.58 | |
| JoyAI-Echo | 23B | 18.0 | |
| MoVA | 32B | 0.26 | |
| LTX-2.3 | 22B | 1.40 | |
| LTX-2.3-Distilled | 22B | 20.7 | |
| 流式 T2V | Causal-Forcing | 1.3B | 19.1 |
| Helios-Distilled | 14B | 18.2 | |
| Krea | 14B | 6.1 | |
| 流式 TA2V | LiveAvatar | 14B | 6.7 |
| SoulX-FlashTalk | 14B | 6.6 | |
| 流式 T2AV | 🐱 MaineCoon (我们的方法) | 22B | 47.5 🥇 |
🐱 = 我们的方法 · 粗体 = 最佳, 斜体 = 次佳。FPS 为单块 H100 上 480P-20s 的数据。
论文
完整论文可在 arXiv:2606.17800 (https://arxiv.org/abs/2606.17800) 上下载。本仓库也包含一份 PDF 副本:MaineCoon_Technical_Report.pdf (https://huggingface.co/papers/MaineCoon_Technical_Report.pdf)。该报告涵盖了社交视频数据基础设施、原生流式自回归训练方案、智能体流式推理框架、SocialVideo-Bench,以及关于社交世界模型的立场/展望。
致谢
MaineCoon 站在开源社区的肩膀上。我们特别感谢:
- 🎬 LTX-2.3 及 LTX 系列 — Lightricks (https://github.com/Lightricks)。 MaineCoon 的音视频骨干基于优秀开源模型 LTX-2.3 构建。非常感谢 LTX 团队以及更广泛的 LTX-Video 系列。
- LTX-2 (包括 LTX-2.3): https://github.com/Lightricks/LTX-2
- LTX-Video: https://github.com/Lightricks/LTX-Video
- ⚡ DMD 系列及分布匹配蒸馏社区。 我们的强化在线策略蒸馏 (ROPD) 基于 分布匹配蒸馏 (DMD / DMD2) 工作线以及更广泛的少步 / 实时蒸馏社区。
- DMD2: https://github.com/tianweiy/DMD2
- DMD (项目页面): https://tianweiy.github.io/dmd/
感谢这些项目及其社区推动了实时、少步和流式视频生成的发展。
引用
@article{catnip2026mainecoon,
title = {MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model},
author = {Catnip AI Team},
year = {2026},
journal = {arXiv preprint arXiv:2606.17800},
url = {https://arxiv.org/abs/2606.17800}
}
相似文章
@rohanpaul_ai: AI视频正进入实时互动时代,MaineCoon如今在低延迟AI视频领域领先。@catnips_ai刚刚…
MaineCoon是一款22B参数的实时文生音频视频模型,在单张H100 GPU上可达47.5 FPS,支持低成本、长时长的流式生成,同步语音与画面,用于实时AI角色。
MultiWorld:可扩展的多智能体多视角视频世界模型
MultiWorld 是一个统一的多智能体多视角视频世界建模框架,通过多智能体条件模块与全局状态编码器,在精准控制多智能体行为的同时保持多视角一致性。
minWM:用于实时交互式视频世界模型的全栈开源框架
minWM 是一个全栈开源框架,可将双向视频扩散模型转换为实时交互式视频世界模型,支持可控相机、低延迟推演和模块化架构。
面向大型音频语言模型的连续音频思考
该论文引入了连续音频思考(CoAT)框架,为大型音频语言模型配备了一个连续的潜在工作空间,用于在生成文本响应之前组织声学信息,从而在音频推理、理解和转录任务中提升性能,且不增加额外的解码成本。
MiniCPM-o 4.5:迈向实时全双工全模态交互
MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。