@rohanpaul_ai: AI视频正进入实时互动时代,MaineCoon如今在低延迟AI视频领域领先。@catnips_ai刚刚…
摘要
MaineCoon是一款22B参数的实时文生音频视频模型,在单张H100 GPU上可达47.5 FPS,支持低成本、长时长的流式生成,同步语音与画面,用于实时AI角色。
查看缓存全文
缓存时间: 2026/06/23 19:53
AI视频正进入实时反应时代,MaineCoon现已在低延迟AI视频领域领先。
@catnips_ai 刚刚推出了MaineCoon,一个22B参数的实时文本到音频-视频模型,专为实时AI角色构建,而非离线视频生成——即通过实时生成同步语音和画面,让AI视频感觉像直播一样。
在单张H100 GPU上实现了破纪录的帧率,高达47.5 FPS。音视频生成成本大幅降至每秒钟低于0.001美元,且仍在持续下降。
它定位于面向社交交互的社交世界模型范式。MaineCoon作为迈向该范式的首个生成核心,为下一代AI原生社交平台提供了技术基础。
它提出了一种多阶段无强制流式训练范式,包括自重采样、跨模态表征对齐、领域感知偏好优化以及强化在线策略蒸馏(ROPD)。这些组件实现了22B规模下原生且高效的流式音视频训练。
它设计了一个智能体流式推理框架,支持千秒级甚至更长的生成,并通过智能体缓存管理、块提交、长上下文展开和提示规划来缓解漂移问题。
关键在于低成本的长时流式生成。
输入文本后,首帧在1秒内出现,模型在播放进行的同时持续生成同步的视频和音频。
因此,它不是先制作完整视频再后期配音。而是以前向方式生成小片段,每个片段从上个片段延续。
这很困难,因为小片段通常破坏一致性。面部漂移,声音变化,动作变得奇怪,音频与嘴部动作分离。
MaineCoon尝试通过双流扩散Transformer来解决这个问题:一个流处理视频,一个流处理音频,并在它们之间设置跨流注意力,从而使表情、唇部动作、声音、时序和身体运动保持同步。
它还使用了历史键值缓存和注意力汇聚。简单来说,模型会保留之前片段的有用记忆,这样下一个片段就不会感觉像是一个新的、不连贯的片段。
速度声明也很重要:单张H100上最高47.5 fps,单张RTX Pro 6000 GPU上实时30 fps。这就是低成本的部分。你不需要庞大的多GPU服务设置就能实现实时音视频生成。
他们还描述了一个智能体流式系统,可以保持生成超过10分钟,同时维持身份、声音、场景状态、视觉质量和同步音频。如果流开始漂移,系统会修复未来的片段,而不是编辑已经显示的画面。
因此,MaineCoon最好被理解为一个流式原生的视觉反应层:快速首帧、连续音视频输出、长程记忆和低推理成本。
1/n
相似文章
MaineCoon: 追求实时视听社交世界模型
MaineCoon是一个220亿参数的实时视听自回归模型,用于社交世界建模,能够在单个GPU上以高达47.5 FPS进行流式生成,并引入了新颖的训练技术和智能体推理框架。
@rohanpaul_ai: 就在几天前,Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…
Thinking Machines Lab 和 OpenBMB 发布了 MiniCPM-o 4.5,这是一个 9B 参数的全双工全模态模型,采用 Omni-Flow 框架,支持连续、时间对齐的实时视频和语音交互,超越了之前的模型,并以开源形式提供。
Mel AI 刚刚展示了一个视频原生 AI 角色的演示,这些角色能实时聊天、反应并响应摄像头上下文 [N]
Mel AI 展示了能够通过视频实时聊天、反应并响应视觉上下文的 AI 角色,超越了基于文本的角色聊天。
@rohanpaul_ai: Thinking Machines 正在用始终在线的 AI 取代轮次交互式的 AI。他们刚刚发布了 TML-Interaction-Small,一个 276B 参数的 MoE 模型……
Thinking Machines 发布了 TML-Interaction-Small,这是一个 276B 参数的 MoE 模型,专为实时、始终在线的交互设计,延迟低于 0.4 秒,并集成了多模态处理能力。
@rohanpaul_ai: 我不得不亲自测试才相信这难以置信的推理速度。单个用户使用标准数据中心 GPU 达到 3000 tokens/s。…
Kog AI 在 8 块 AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度,在 8 块 NVIDIA H200 上达到 2100 tokens/s,利用了 GPU 令牌生成中隐藏的效率差距。