@rohanpaul_ai: 就在几天前,Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…
摘要
Thinking Machines Lab 和 OpenBMB 发布了 MiniCPM-o 4.5,这是一个 9B 参数的全双工全模态模型,采用 Omni-Flow 框架,支持连续、时间对齐的实时视频和语音交互,超越了之前的模型,并以开源形式提供。
查看缓存全文
缓存时间: 2026/05/18 10:30
就在几天前,Thinking Machines Lab(TML)展示了一种让AI交互从回合制变为连续流的方式——全双工时间对齐微回合。
这是未来近实时AI语音与视频对话的预览,伴随全新的“交互模型”。
而MiniCPM-o 4.5早已通过OpenBMB的Omni-Flow框架实现了相同的核心理念:时间对齐的感知与响应,而非传统的回合制对话。
一个9B参数的全双工全模态模型,能同时看、听、说。
Omni-Flow将交互视为共享时间轴上的连续流,把视觉输入、音频输入以及输出语音/文本对齐到时间块中,使模型能在响应的同时进行感知。
这打破了AI原有的“对讲机式”用户体验:用户说话,模型等待,模型回复。
这不仅仅是一个演示概念。它是一个9B参数的开源模型,附带代码、权重、技术报告,并且可在12GB内存下进行边缘端部署。
它在全模态能力和语音生成质量上也超越了Qwen3-Omni-30B-A3B。
这感觉就像AI一直缺失的交互层。
OpenBMB已经将其作为真正的全双工全模态架构发布,视频token、音频token、LLM隐藏状态、语音token和波形生成全部同步到同一个共享时间轴上。
Thinking Machines(@thinkymachines): 人们同时进行着交谈、倾听、观察、思考和协作,这一切都在实时发生。我们设计了一个能以同样方式与人协作的AI。
我们分享了我们的方法、初步成果以及模型运行的快速演示。
相似文章
MiniCPM-o 4.5:迈向实时全双工全模态交互
MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。
@rohanpaul_ai: Thinking Machines 正在用始终在线的 AI 取代轮次交互式的 AI。他们刚刚发布了 TML-Interaction-Small,一个 276B 参数的 MoE 模型……
Thinking Machines 发布了 TML-Interaction-Small,这是一个 276B 参数的 MoE 模型,专为实时、始终在线的交互设计,延迟低于 0.4 秒,并集成了多模态处理能力。
@Saboo_Shubham_: 这并不是一个智能体,仅仅是一个单一的 AI 模型。Thinking Machine 刚刚发布了一款交互模型,能够同时…
Thinking Machine 推出了新款多模态 AI 模型,可同步进行听、看、说、打断、反应、思考及工具调用,展现了模型与智能体的融合。
OpenAI的新语音模型不止于回话
OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。
交互模型
Thinking Machines AI 宣布推出交互模型的研究预览版,这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面,该模型旨在让人类始终保持在环,同时提供业界领先的智能水平与响应速度。