@rohanpaul_ai: 就在几天前,Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…

X AI KOLs Following 模型

摘要

Thinking Machines Lab 和 OpenBMB 发布了 MiniCPM-o 4.5,这是一个 9B 参数的全双工全模态模型,采用 Omni-Flow 框架,支持连续、时间对齐的实时视频和语音交互,超越了之前的模型,并以开源形式提供。

就在几天前,Thinking Machines Lab (TML) 展示了一种让 AI 交互不再是轮次式而是连续式的方法,即全双工时间对齐微轮次。 这预示着未来将出现近乎实时的 AI 语音和视频对话,并采用新的 '交互模型'。 而 MiniCPM-o 4.5 已经通过 OpenBMB 的 Omni-Flow 框架实现了相同的核心思想:时间对齐的感知和响应,取代了传统的轮次式聊天。 这是一个 9B 参数的全双工全模态模型,可以同时看、听和说。 Omni-Flow 还将交互视为共享时间轴上的连续流,将视觉输入、音频输入以及输出语音/文本对齐为时间块,使模型能够在响应的同时进行感知。 这打破了旧式 AI 对讲机式的用户体验:用户说话,模型等待,模型回复。 这不仅仅是一个演示概念。它是一个 9B 开源模型,包含代码、权重、报告,并且可在 12GB RAM 下进行边缘部署。 它还在全模态能力和语音生成质量上超越了 Qwen3-Omni-30B-A3B。 这感觉像是 AI 缺失的交互层。 OpenBMB 已经将其作为真正的全双工全模态架构推出,视频令牌、音频令牌、LLM 隐层状态、语音令牌和波形生成全部同步到同一个共享时间线上。
查看原文
查看缓存全文

缓存时间: 2026/05/18 10:30

就在几天前,Thinking Machines Lab(TML)展示了一种让AI交互从回合制变为连续流的方式——全双工时间对齐微回合。

这是未来近实时AI语音与视频对话的预览,伴随全新的“交互模型”。

而MiniCPM-o 4.5早已通过OpenBMB的Omni-Flow框架实现了相同的核心理念:时间对齐的感知与响应,而非传统的回合制对话。

一个9B参数的全双工全模态模型,能同时看、听、说。

Omni-Flow将交互视为共享时间轴上的连续流,把视觉输入、音频输入以及输出语音/文本对齐到时间块中,使模型能在响应的同时进行感知。

这打破了AI原有的“对讲机式”用户体验:用户说话,模型等待,模型回复。

这不仅仅是一个演示概念。它是一个9B参数的开源模型,附带代码、权重、技术报告,并且可在12GB内存下进行边缘端部署。

它在全模态能力和语音生成质量上也超越了Qwen3-Omni-30B-A3B。

这感觉就像AI一直缺失的交互层。

OpenBMB已经将其作为真正的全双工全模态架构发布,视频token、音频token、LLM隐藏状态、语音token和波形生成全部同步到同一个共享时间轴上。

Thinking Machines(@thinkymachines): 人们同时进行着交谈、倾听、观察、思考和协作,这一切都在实时发生。我们设计了一个能以同样方式与人协作的AI。

我们分享了我们的方法、初步成果以及模型运行的快速演示。

相似文章

MiniCPM-o 4.5:迈向实时全双工全模态交互

Hugging Face Daily Papers

MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。

交互模型

Hacker News Top

Thinking Machines AI 宣布推出交互模型的研究预览版,这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面,该模型旨在让人类始终保持在环,同时提供业界领先的智能水平与响应速度。