@rohanpaul_ai: AI视频正进入实时互动时代,MaineCoon如今在低延迟AI视频领域领先。@catnips_ai刚刚…

X AI KOLs Following 模型

摘要

MaineCoon是一款22B参数的实时文生音频视频模型,在单张H100 GPU上可达47.5 FPS,支持低成本、长时长的流式生成,同步语音与画面,用于实时AI角色。

AI视频正进入实时互动时代,MaineCoon如今在低延迟AI视频领域领先。 @catnips_ai刚刚推出了MaineCoon,这是一款22B参数的实时文生音频视频模型,专为实时AI角色打造,而非离线视频生成——即通过实时生成同步语音和画面,让AI视频拥有现场感。 在单张H100 GPU上实现了创纪录的47.5 FPS帧率。视听生成成本大幅降至每秒钟低于0.001美元,并且还在持续下降。 它定位了面向社交互动的社交世界模型这一范式。MaineCoon作为迈向此范式的首个生成式核心,为下一代AI原生的社交平台提供了技术基础。 它提出了一种多阶段无强制流式训练范式,包括自重采样、跨模态表征对齐、领域感知偏好优化和强化在线策略蒸馏(ROPD)。这些组件实现了22B规模的原生高效流式视听训练。 它设计了一个智能体流式推理框架,支持千秒级甚至更长的生成,同时通过智能体缓存管理、分块提交、长上下文展开和提示规划来减轻漂移。 关键在于低成本的长时长流式生成。 输入文本后,首帧在1秒内出现,模型在播放进行中持续生成同步的视频和音频。 因此,它并非先生成完整视频再后期配音,而是以小块为单位向前生成,每个小块都延续前一块。 这很有挑战性,因为小片段往往会破坏一致性:面部漂移、声音变化、动作怪异、音频与口型分离。 MaineCoon试图通过双流扩散Transformer解决这一问题:一个流负责视频,一个流负责音频,两者之间通过跨流注意力机制,使得表情、唇动、声音、时机和身体动作保持同步。 它还使用了历史键值缓存和注意力汇。简而言之,模型保留了来自前一块的有用记忆,使得下一块不会让人感觉像是一个新的断开的片段。 速度方面的说法也很重要:单张H100上可达47.5 fps,单张RTX Pro 6000 GPU上可实现实时30 fps。这就是低成本的部分:不需要庞大的多GPU服务设置就能获得实时音频视频生成。 他们还描述了一个智能体流式系统,可以在保持身份、声音、场景状态、画质和同步音频的情况下持续生成超过10分钟。如果流开始漂移,系统会修复未来的数据块,而不是编辑已经显示的帧。 因此,MaineCoon最好被理解为一种原生流式的视觉反应层:快速首帧、持续音视频输出、长程记忆以及低推理成本。 1/n.
查看原文
查看缓存全文

缓存时间: 2026/06/23 19:53

AI视频正进入实时反应时代,MaineCoon现已在低延迟AI视频领域领先。

@catnips_ai 刚刚推出了MaineCoon,一个22B参数的实时文本到音频-视频模型,专为实时AI角色构建,而非离线视频生成——即通过实时生成同步语音和画面,让AI视频感觉像直播一样。

在单张H100 GPU上实现了破纪录的帧率,高达47.5 FPS。音视频生成成本大幅降至每秒钟低于0.001美元,且仍在持续下降。

它定位于面向社交交互的社交世界模型范式。MaineCoon作为迈向该范式的首个生成核心,为下一代AI原生社交平台提供了技术基础。

它提出了一种多阶段无强制流式训练范式,包括自重采样、跨模态表征对齐、领域感知偏好优化以及强化在线策略蒸馏(ROPD)。这些组件实现了22B规模下原生且高效的流式音视频训练。

它设计了一个智能体流式推理框架,支持千秒级甚至更长的生成,并通过智能体缓存管理、块提交、长上下文展开和提示规划来缓解漂移问题。

关键在于低成本的长时流式生成。

输入文本后,首帧在1秒内出现,模型在播放进行的同时持续生成同步的视频和音频。

因此,它不是先制作完整视频再后期配音。而是以前向方式生成小片段,每个片段从上个片段延续。

这很困难,因为小片段通常破坏一致性。面部漂移,声音变化,动作变得奇怪,音频与嘴部动作分离。

MaineCoon尝试通过双流扩散Transformer来解决这个问题:一个流处理视频,一个流处理音频,并在它们之间设置跨流注意力,从而使表情、唇部动作、声音、时序和身体运动保持同步。

它还使用了历史键值缓存和注意力汇聚。简单来说,模型会保留之前片段的有用记忆,这样下一个片段就不会感觉像是一个新的、不连贯的片段。

速度声明也很重要:单张H100上最高47.5 fps,单张RTX Pro 6000 GPU上实时30 fps。这就是低成本的部分。你不需要庞大的多GPU服务设置就能实现实时音视频生成。

他们还描述了一个智能体流式系统,可以保持生成超过10分钟,同时维持身份、声音、场景状态、视觉质量和同步音频。如果流开始漂移,系统会修复未来的片段,而不是编辑已经显示的画面。

因此,MaineCoon最好被理解为一个流式原生的视觉反应层:快速首帧、连续音视频输出、长程记忆和低推理成本。

1/n

相似文章

MaineCoon: 追求实时视听社交世界模型

Hugging Face Daily Papers

MaineCoon是一个220亿参数的实时视听自回归模型,用于社交世界建模,能够在单个GPU上以高达47.5 FPS进行流式生成,并引入了新颖的训练技术和智能体推理框架。