@rohanpaul_ai: AI视频正进入实时互动时代，MaineCoon如今在低延迟AI视频领域领先。@catnips_ai刚刚…

X AI KOLs Following 2026/06/23 19:06 模型

real-time-video text-to-video text-to-audio streaming low-latency diffusion-transformer

摘要

MaineCoon是一款22B参数的实时文生音频视频模型，在单张H100 GPU上可达47.5 FPS，支持低成本、长时长的流式生成，同步语音与画面，用于实时AI角色。

AI视频正进入实时互动时代，MaineCoon如今在低延迟AI视频领域领先。 @catnips_ai刚刚推出了MaineCoon，这是一款22B参数的实时文生音频视频模型，专为实时AI角色打造，而非离线视频生成——即通过实时生成同步语音和画面，让AI视频拥有现场感。在单张H100 GPU上实现了创纪录的47.5 FPS帧率。视听生成成本大幅降至每秒钟低于0.001美元，并且还在持续下降。它定位了面向社交互动的社交世界模型这一范式。MaineCoon作为迈向此范式的首个生成式核心，为下一代AI原生的社交平台提供了技术基础。它提出了一种多阶段无强制流式训练范式，包括自重采样、跨模态表征对齐、领域感知偏好优化和强化在线策略蒸馏（ROPD）。这些组件实现了22B规模的原生高效流式视听训练。它设计了一个智能体流式推理框架，支持千秒级甚至更长的生成，同时通过智能体缓存管理、分块提交、长上下文展开和提示规划来减轻漂移。关键在于低成本的长时长流式生成。输入文本后，首帧在1秒内出现，模型在播放进行中持续生成同步的视频和音频。因此，它并非先生成完整视频再后期配音，而是以小块为单位向前生成，每个小块都延续前一块。这很有挑战性，因为小片段往往会破坏一致性：面部漂移、声音变化、动作怪异、音频与口型分离。 MaineCoon试图通过双流扩散Transformer解决这一问题：一个流负责视频，一个流负责音频，两者之间通过跨流注意力机制，使得表情、唇动、声音、时机和身体动作保持同步。它还使用了历史键值缓存和注意力汇。简而言之，模型保留了来自前一块的有用记忆，使得下一块不会让人感觉像是一个新的断开的片段。速度方面的说法也很重要：单张H100上可达47.5 fps，单张RTX Pro 6000 GPU上可实现实时30 fps。这就是低成本的部分：不需要庞大的多GPU服务设置就能获得实时音频视频生成。他们还描述了一个智能体流式系统，可以在保持身份、声音、场景状态、画质和同步音频的情况下持续生成超过10分钟。如果流开始漂移，系统会修复未来的数据块，而不是编辑已经显示的帧。因此，MaineCoon最好被理解为一种原生流式的视觉反应层：快速首帧、持续音视频输出、长程记忆以及低推理成本。 1/n.

查看原文

查看缓存全文

缓存时间: 2026/06/23 19:53

AI视频正进入实时反应时代，MaineCoon现已在低延迟AI视频领域领先。

@catnips_ai 刚刚推出了MaineCoon，一个22B参数的实时文本到音频-视频模型，专为实时AI角色构建，而非离线视频生成——即通过实时生成同步语音和画面，让AI视频感觉像直播一样。

在单张H100 GPU上实现了破纪录的帧率，高达47.5 FPS。音视频生成成本大幅降至每秒钟低于0.001美元，且仍在持续下降。

它定位于面向社交交互的社交世界模型范式。MaineCoon作为迈向该范式的首个生成核心，为下一代AI原生社交平台提供了技术基础。

它提出了一种多阶段无强制流式训练范式，包括自重采样、跨模态表征对齐、领域感知偏好优化以及强化在线策略蒸馏（ROPD）。这些组件实现了22B规模下原生且高效的流式音视频训练。

它设计了一个智能体流式推理框架，支持千秒级甚至更长的生成，并通过智能体缓存管理、块提交、长上下文展开和提示规划来缓解漂移问题。

关键在于低成本的长时流式生成。

输入文本后，首帧在1秒内出现，模型在播放进行的同时持续生成同步的视频和音频。

因此，它不是先制作完整视频再后期配音。而是以前向方式生成小片段，每个片段从上个片段延续。

这很困难，因为小片段通常破坏一致性。面部漂移，声音变化，动作变得奇怪，音频与嘴部动作分离。

MaineCoon尝试通过双流扩散Transformer来解决这个问题：一个流处理视频，一个流处理音频，并在它们之间设置跨流注意力，从而使表情、唇部动作、声音、时序和身体运动保持同步。

它还使用了历史键值缓存和注意力汇聚。简单来说，模型会保留之前片段的有用记忆，这样下一个片段就不会感觉像是一个新的、不连贯的片段。

速度声明也很重要：单张H100上最高47.5 fps，单张RTX Pro 6000 GPU上实时30 fps。这就是低成本的部分。你不需要庞大的多GPU服务设置就能实现实时音视频生成。

他们还描述了一个智能体流式系统，可以保持生成超过10分钟，同时维持身份、声音、场景状态、视觉质量和同步音频。如果流开始漂移，系统会修复未来的片段，而不是编辑已经显示的画面。

因此，MaineCoon最好被理解为一个流式原生的视觉反应层：快速首帧、连续音视频输出、长程记忆和低推理成本。

1/n

@rohanpaul_ai: AI视频正进入实时互动时代，MaineCoon如今在低延迟AI视频领域领先。@catnips_ai刚刚…

相似文章

MaineCoon: 追求实时视听社交世界模型

@rohanpaul_ai: 就在几天前，Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…

Mel AI 刚刚展示了一个视频原生 AI 角色的演示，这些角色能实时聊天、反应并响应摄像头上下文 [N]

@rohanpaul_ai: Thinking Machines 正在用始终在线的 AI 取代轮次交互式的 AI。他们刚刚发布了 TML-Interaction-Small，一个 276B 参数的 MoE 模型……

@rohanpaul_ai: 我不得不亲自测试才相信这难以置信的推理速度。单个用户使用标准数据中心 GPU 达到 3000 tokens/s。…

提交意见反馈