MaineCoon: 追求实时视听社交世界模型

Hugging Face Daily Papers 2026/06/16 00:00 论文

real-time audio-visual autoregressive social-world-model streaming-generation 22b-parameters

摘要

MaineCoon是一个220亿参数的实时视听自回归模型，用于社交世界建模，能够在单个GPU上以高达47.5 FPS进行流式生成，并引入了新颖的训练技术和智能体推理框架。

随着全球视频内容越来越多地在社交平台上用于互动社交目的，为社交世界构建的视频生成模型至关重要，但以往的研究在很大程度上忽视了这一点。在这项工作中，我们定义了社交世界模型的位置，并构建了一个原型模型作为实现这一目标的第一步。虽然以往的世界模型成功模拟了物理环境或游戏世界探索，但它们从根本上脱离以人为中心的社交动态。为了弥合这一差距，作为社交世界模型的第一步，我们提出了MaineCoon，这是首个实时视听自回归模型，拥有220亿参数，能够实现实时流式生成和亚秒级交互，在单个GPU上帧率高达47.5 FPS，创下了纪录。据我们所知，MaineCoon也是首个专门针对社交互动应用优化的实时视听生成模型。为了实现高效稳定的训练，我们在MaineCoon中引入了多项新颖技术，包括自重采样、跨模态表示对齐、领域感知偏好优化以及强化在线策略蒸馏（ROPD）。我们还设计了首个智能体流式推理框架，支持千秒甚至更长时间的生成，同时通过智能体缓存管理和提示规划减轻漂移。这些创新显著加速了训练并优化了实时推理性能。我们相信，这项工作不仅为高质量、低延迟和长时程的视听自回归模型设立了新的最先进（SOTA）性能基准，而且还指出了下一代原生AI社交平台所需的范式转变。

查看原文

查看缓存全文

缓存时间: 2026/06/18 15:57

论文页面 — MaineCoon: 追求实时音视频社交世界模型

来源: https://huggingface.co/papers/2606.17800

MaineCoon: 追求实时音视频社交世界模型

Catnip AI 团队

摘要

随着全球越来越多视频内容在社交平台上被消费以进行互动社交，专为社交世界构建的视频生成模型虽然重要，却在以往研究中被严重忽视。在本工作中，我们界定了社交世界模型的位置，并构建了一个原型模型作为迈向这一目标的第一步。虽然以往的世界模型成功模拟了物理环境或游戏世界探索，但它们从根本上脱离了以人为中心的社交动态。它们通常省略关键的听觉信息，或者无法捕捉定义病毒式社交媒体内容的高参与度节奏、情感共鸣与快速对话流。为了弥合这一差距，作为社交世界模型的第一步，我们提出了 MaineCoon，这是首个拥有 220亿参数 的实时音视频自回归模型，能够进行实时流式生成和亚秒级交互，在单块 GPU 上创下了高达 47.5 FPS 的破纪录帧率。据我们所知，MaineCoon 也是首个专为社交互动应用优化的实时音视频生成模型。为了实现高效稳定的训练，我们在 MaineCoon 中引入了多项新技术，包括自重采样、跨模态表征对齐、领域感知偏好优化以及强化在线策略蒸馏 (ROPD)。我们还设计了首个智能体流式推理框架，支持千秒级甚至更长的生成，同时通过智能体缓存管理和提示规划减轻漂移。这些创新显著加速了训练，同时优化了实时推理性能。我们相信，这项工作不仅为高质量、低延迟、长时域音视频自回归模型设定了新的最先进 (SOTA) 性能基准，也指出了下一代 AI 原生社交平台所需的范式转变。

亮点

⚡ 单 GPU 实时运行。一个 22B 的互动音视频自回归模型，能够进行流式生成和亚秒级交互，在单块 H100 上实现了高达 47.5 FPS 的破纪录帧率。生成成本大幅降至 每秒钟低于 $0.001，且仍在下降。
🌍 新范式：社交世界模型。MaineCoon 定位并作为首个 社交世界模型 的生成核心，为下一代 AI 原生社交平台奠定技术基础。
🎓 无强制流式训练。多阶段训练范式——自重采样、跨模态表征对齐、领域感知偏好优化 和 强化在线策略蒸馏 (ROPD)——实现了 22B 规模的原生高效流式音视频训练。
🧠 智能体流式推理。智能体推理框架支持千秒级生成，并通过智能体缓存管理、分块提交、长上下文展开和提示规划减轻漂移。
📊 SocialVideo-Bench。专注于音视频社交视频生成的新基准，包含 9 个代表性指标，涵盖视觉质量、运动、音频质量、音视频对齐和社交视频和谐度。MaineCoon 在 7 个代表性开源音视频模型中脱颖而出，同时实现了最快的生成速度——为实时社交视频生成树立了新的最先进水平。

展示

精选的 MaineCoon 生成结果 (音频+视频，含声音) 可直接在 GitHub 仓库 (https://github.com/catnip-ai-tech/MaineCoon) 中播放。

🎬 分钟级长篇幅演示 最佳观看方式为访问我们的 博客 (https://mainecoon.tech/blogs)。🕹️ 实时体验 MaineCoon 请访问 体验平台 (https://mainecoon.tech/experience-platform)。

基准测试 — SocialVideo-Bench

表 2. SocialVideo-Bench 的主要量化结果。🐱 MaineCoon (我们的方法) 获得了最佳平均分，并在大多数指标上胜出，包括两个最全面的指标——音视频和谐度 (AVH) 和联合音视频综合评分 (JAVIS)——超越了所有流式和双向基线模型。

类型	模型	Vis↑	Mot↑	Aud↑	IB-TV↑	IB-TA↑	IB-AV↑	AV-Al↑	AVH↑	JAVIS↑	平均↑
双向 T2AV	JavisDiT++	4.39	2.22	4.06	0.134	0.070	0.151	0.312	0.136	0.112	0.711
	Ovi	4.44	1.89	3.76	0.138	0.079	0.191	0.412	0.188	0.162	0.779
	JoyAI-Echo	4.61	1.17	3.47	0.147	0.088	0.226	0.319	0.196	0.173	0.749
	MoVA	4.66	1.68	3.69	0.133	0.105	0.258	0.359	0.245	0.216	0.842
	LTX-2.3	4.10	0.99	4.06	0.132	0.111	0.311	0.334	0.287	0.247	0.848
流式 TA2V	LiveAvatar	4.60	1.46	4.13	0.131	0.120	0.316	0.326	0.291	0.246	0.892
	SoulX-FlashTalk	4.65	1.99	4.07	0.128	0.120	0.307	0.279	0.283	0.238	0.895
流式 T2AV	🐱 MaineCoon (我们的方法)	4.71	1.62	4.35	0.127	0.130	0.318	0.334	0.308	0.272	0.934 🥇

🐱 = 我们的方法 · 粗体 = 最佳, 斜体 = 次佳。指标说明 — Vis: 视觉质量 · Mot: 运动 · Aud: 音频质量 · IB-TV / IB-TA / IB-AV: ImageBind 文本-视频 / 文本-音频 / 音频-视频对齐 · AV-Al: 音视频对齐 · AVH: 音视频和谐度 · JAVIS: 联合音视频综合评分。完整基准和指标定义见技术报告。

表 3. 延迟与模型规模对比。采样吞吐量 (FPS) 在单块 H100 GPU 上以 480P 20 秒生成为基准测量。🐱 MaineCoon (我们的方法) 拥有最大的模型，但速度却最快——比其它流式音视频生成器快高达 7 倍，甚至比 1.3B 的流式视频模型还要快。

类型	模型	参数量	FPS↑
双向 T2AV	JavisDiT++	1.8B	0.87
	Ovi	11B	0.58
	JoyAI-Echo	23B	18.0
	MoVA	32B	0.26
	LTX-2.3	22B	1.40
	LTX-2.3-Distilled	22B	20.7
流式 T2V	Causal-Forcing	1.3B	19.1
	Helios-Distilled	14B	18.2
	Krea	14B	6.1
流式 TA2V	LiveAvatar	14B	6.7
	SoulX-FlashTalk	14B	6.6
流式 T2AV	🐱 MaineCoon (我们的方法)	22B	47.5 🥇

🐱 = 我们的方法 · 粗体 = 最佳, 斜体 = 次佳。FPS 为单块 H100 上 480P-20s 的数据。

论文

完整论文可在 arXiv:2606.17800 (https://arxiv.org/abs/2606.17800) 上下载。本仓库也包含一份 PDF 副本：MaineCoon_Technical_Report.pdf (https://huggingface.co/papers/MaineCoon_Technical_Report.pdf)。该报告涵盖了社交视频数据基础设施、原生流式自回归训练方案、智能体流式推理框架、SocialVideo-Bench，以及关于社交世界模型的立场/展望。

致谢

MaineCoon 站在开源社区的肩膀上。我们特别感谢：

🎬 LTX-2.3 及 LTX 系列 — Lightricks (https://github.com/Lightricks)。 MaineCoon 的音视频骨干基于优秀开源模型 LTX-2.3 构建。非常感谢 LTX 团队以及更广泛的 LTX-Video 系列。
- LTX-2 (包括 LTX-2.3): https://github.com/Lightricks/LTX-2
- LTX-Video: https://github.com/Lightricks/LTX-Video
⚡ DMD 系列及分布匹配蒸馏社区。 我们的强化在线策略蒸馏 (ROPD) 基于 分布匹配蒸馏 (DMD / DMD2) 工作线以及更广泛的少步 / 实时蒸馏社区。
- DMD2: https://github.com/tianweiy/DMD2
- DMD (项目页面): https://tianweiy.github.io/dmd/

感谢这些项目及其社区推动了实时、少步和流式视频生成的发展。

引用

@article{catnip2026mainecoon,
  title        = {MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model},
  author       = {Catnip AI Team},
  year         = {2026},
  journal      = {arXiv preprint arXiv:2606.17800},
  url          = {https://arxiv.org/abs/2606.17800}
}

MaineCoon: 追求实时视听社交世界模型

论文页面 — MaineCoon: 追求实时音视频社交世界模型

MaineCoon: 追求实时音视频社交世界模型

摘要

亮点

展示

基准测试 — SocialVideo-Bench

论文

致谢

引用

相似文章

@rohanpaul_ai: AI视频正进入实时互动时代，MaineCoon如今在低延迟AI视频领域领先。@catnips_ai刚刚…

MultiWorld：可扩展的多智能体多视角视频世界模型

minWM：用于实时交互式视频世界模型的全栈开源框架

面向大型音频语言模型的连续音频思考

MiniCPM-o 4.5：迈向实时全双工全模态交互

提交意见反馈