MaineCoon: 追求实时视听社交世界模型

Hugging Face Daily Papers 论文

摘要

MaineCoon是一个220亿参数的实时视听自回归模型,用于社交世界建模,能够在单个GPU上以高达47.5 FPS进行流式生成,并引入了新颖的训练技术和智能体推理框架。

随着全球视频内容越来越多地在社交平台上用于互动社交目的,为社交世界构建的视频生成模型至关重要,但以往的研究在很大程度上忽视了这一点。在这项工作中,我们定义了社交世界模型的位置,并构建了一个原型模型作为实现这一目标的第一步。虽然以往的世界模型成功模拟了物理环境或游戏世界探索,但它们从根本上脱离以人为中心的社交动态。为了弥合这一差距,作为社交世界模型的第一步,我们提出了MaineCoon,这是首个实时视听自回归模型,拥有220亿参数,能够实现实时流式生成和亚秒级交互,在单个GPU上帧率高达47.5 FPS,创下了纪录。据我们所知,MaineCoon也是首个专门针对社交互动应用优化的实时视听生成模型。为了实现高效稳定的训练,我们在MaineCoon中引入了多项新颖技术,包括自重采样、跨模态表示对齐、领域感知偏好优化以及强化在线策略蒸馏(ROPD)。我们还设计了首个智能体流式推理框架,支持千秒甚至更长时间的生成,同时通过智能体缓存管理和提示规划减轻漂移。这些创新显著加速了训练并优化了实时推理性能。我们相信,这项工作不仅为高质量、低延迟和长时程的视听自回归模型设立了新的最先进(SOTA)性能基准,而且还指出了下一代原生AI社交平台所需的范式转变。
查看原文
查看缓存全文

缓存时间: 2026/06/18 15:57

论文页面 — MaineCoon: 追求实时音视频社交世界模型

来源: https://huggingface.co/papers/2606.17800

MaineCoon: 追求实时音视频社交世界模型

Catnip AI 团队

摘要

随着全球越来越多视频内容在社交平台上被消费以进行互动社交,专为社交世界构建的视频生成模型虽然重要,却在以往研究中被严重忽视。在本工作中,我们界定了社交世界模型的位置,并构建了一个原型模型作为迈向这一目标的第一步。虽然以往的世界模型成功模拟了物理环境或游戏世界探索,但它们从根本上脱离了以人为中心的社交动态。它们通常省略关键的听觉信息,或者无法捕捉定义病毒式社交媒体内容的高参与度节奏、情感共鸣与快速对话流。为了弥合这一差距,作为社交世界模型的第一步,我们提出了 MaineCoon,这是首个拥有 220亿参数 的实时音视频自回归模型,能够进行实时流式生成和亚秒级交互,在单块 GPU 上创下了高达 47.5 FPS 的破纪录帧率。据我们所知,MaineCoon 也是首个专为社交互动应用优化的实时音视频生成模型。为了实现高效稳定的训练,我们在 MaineCoon 中引入了多项新技术,包括自重采样、跨模态表征对齐、领域感知偏好优化以及强化在线策略蒸馏 (ROPD)。我们还设计了首个智能体流式推理框架,支持千秒级甚至更长的生成,同时通过智能体缓存管理和提示规划减轻漂移。这些创新显著加速了训练,同时优化了实时推理性能。我们相信,这项工作不仅为高质量、低延迟、长时域音视频自回归模型设定了新的最先进 (SOTA) 性能基准,也指出了下一代 AI 原生社交平台所需的范式转变。

亮点

  • ⚡ 单 GPU 实时运行。一个 22B 的互动音视频自回归模型,能够进行流式生成和亚秒级交互,在单块 H100 上实现了高达 47.5 FPS 的破纪录帧率。生成成本大幅降至 每秒钟低于 $0.001,且仍在下降。
  • 🌍 新范式:社交世界模型。MaineCoon 定位并作为首个 社交世界模型 的生成核心,为下一代 AI 原生社交平台奠定技术基础。
  • 🎓 无强制流式训练。多阶段训练范式——自重采样跨模态表征对齐领域感知偏好优化强化在线策略蒸馏 (ROPD)——实现了 22B 规模的原生高效流式音视频训练。
  • 🧠 智能体流式推理。智能体推理框架支持千秒级生成,并通过智能体缓存管理、分块提交、长上下文展开和提示规划减轻漂移。
  • 📊 SocialVideo-Bench。专注于音视频社交视频生成的新基准,包含 9 个代表性指标,涵盖视觉质量、运动、音频质量、音视频对齐和社交视频和谐度。MaineCoon 在 7 个代表性开源音视频模型中脱颖而出,同时实现了最快的生成速度——为实时社交视频生成树立了新的最先进水平。

展示

精选的 MaineCoon 生成结果 (音频+视频,含声音) 可直接在 GitHub 仓库 (https://github.com/catnip-ai-tech/MaineCoon) 中播放。

🎬 分钟级长篇幅演示 最佳观看方式为访问我们的 博客 (https://mainecoon.tech/blogs)。🕹️ 实时体验 MaineCoon 请访问 体验平台 (https://mainecoon.tech/experience-platform)

基准测试 — SocialVideo-Bench

表 2. SocialVideo-Bench 的主要量化结果。🐱 MaineCoon (我们的方法) 获得了最佳平均分,并在大多数指标上胜出,包括两个最全面的指标——音视频和谐度 (AVH) 和联合音视频综合评分 (JAVIS)——超越了所有流式和双向基线模型。

类型模型Vis↑Mot↑Aud↑IB-TV↑IB-TA↑IB-AV↑AV-Al↑AVH↑JAVIS↑平均↑
双向 T2AVJavisDiT++4.392.224.060.1340.0700.1510.3120.1360.1120.711
Ovi4.441.893.760.1380.0790.1910.4120.1880.1620.779
JoyAI-Echo4.611.173.470.1470.0880.2260.3190.1960.1730.749
MoVA4.661.683.690.1330.1050.2580.3590.2450.2160.842
LTX-2.34.100.994.060.1320.1110.3110.3340.2870.2470.848
流式 TA2VLiveAvatar4.601.464.130.1310.1200.3160.3260.2910.2460.892
SoulX-FlashTalk4.651.994.070.1280.1200.3070.2790.2830.2380.895
流式 T2AV🐱 MaineCoon (我们的方法)4.711.624.350.1270.1300.3180.3340.3080.2720.934 🥇

🐱 = 我们的方法 · 粗体 = 最佳, 斜体 = 次佳。指标说明 — Vis: 视觉质量 · Mot: 运动 · Aud: 音频质量 · IB-TV / IB-TA / IB-AV: ImageBind 文本-视频 / 文本-音频 / 音频-视频对齐 · AV-Al: 音视频对齐 · AVH: 音视频和谐度 · JAVIS: 联合音视频综合评分。完整基准和指标定义见技术报告。

表 3. 延迟与模型规模对比。采样吞吐量 (FPS) 在单块 H100 GPU 上以 480P 20 秒生成为基准测量。🐱 MaineCoon (我们的方法) 拥有最大的模型,但速度却最快——比其它流式音视频生成器快高达 7 倍,甚至比 1.3B 的流式视频模型还要快。

类型模型参数量FPS↑
双向 T2AVJavisDiT++1.8B0.87
Ovi11B0.58
JoyAI-Echo23B18.0
MoVA32B0.26
LTX-2.322B1.40
LTX-2.3-Distilled22B20.7
流式 T2VCausal-Forcing1.3B19.1
Helios-Distilled14B18.2
Krea14B6.1
流式 TA2VLiveAvatar14B6.7
SoulX-FlashTalk14B6.6
流式 T2AV🐱 MaineCoon (我们的方法)22B47.5 🥇

🐱 = 我们的方法 · 粗体 = 最佳, 斜体 = 次佳。FPS 为单块 H100 上 480P-20s 的数据。

论文

完整论文可在 arXiv:2606.17800 (https://arxiv.org/abs/2606.17800) 上下载。本仓库也包含一份 PDF 副本:MaineCoon_Technical_Report.pdf (https://huggingface.co/papers/MaineCoon_Technical_Report.pdf)。该报告涵盖了社交视频数据基础设施、原生流式自回归训练方案、智能体流式推理框架、SocialVideo-Bench,以及关于社交世界模型的立场/展望。

致谢

MaineCoon 站在开源社区的肩膀上。我们特别感谢:

  • 🎬 LTX-2.3 及 LTX 系列 — Lightricks (https://github.com/Lightricks)。 MaineCoon 的音视频骨干基于优秀开源模型 LTX-2.3 构建。非常感谢 LTX 团队以及更广泛的 LTX-Video 系列。
    • LTX-2 (包括 LTX-2.3): https://github.com/Lightricks/LTX-2
    • LTX-Video: https://github.com/Lightricks/LTX-Video
  • ⚡ DMD 系列及分布匹配蒸馏社区。 我们的强化在线策略蒸馏 (ROPD) 基于 分布匹配蒸馏 (DMD / DMD2) 工作线以及更广泛的少步 / 实时蒸馏社区。
    • DMD2: https://github.com/tianweiy/DMD2
    • DMD (项目页面): https://tianweiy.github.io/dmd/

感谢这些项目及其社区推动了实时、少步和流式视频生成的发展。

引用

@article{catnip2026mainecoon,
  title        = {MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model},
  author       = {Catnip AI Team},
  year         = {2026},
  journal      = {arXiv preprint arXiv:2606.17800},
  url          = {https://arxiv.org/abs/2606.17800}
}

相似文章

面向大型音频语言模型的连续音频思考

arXiv cs.AI

该论文引入了连续音频思考(CoAT)框架,为大型音频语言模型配备了一个连续的潜在工作空间,用于在生成文本响应之前组织声学信息,从而在音频推理、理解和转录任务中提升性能,且不增加额外的解码成本。

MiniCPM-o 4.5:迈向实时全双工全模态交互

Hugging Face Daily Papers

MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。