@miramurati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time inter…
摘要
Mira Murati 团队展示了全新交互模型预览版,该模型从头训练,原生支持全双工实时音视频对话、即时打断、多语言翻译及动态多任务处理。演示验证了其在低延迟流式交互、多模态感知与并发任务执行方面的核心能力。
查看缓存全文
缓存时间: 2026/05/11 22:47
Today we’re sharing our work on interaction models. A new class of model trained from scratch to handle real-time interaction natively, instead of gluing it onto a turn-based one. https://t.co/MoS5s4cm60
TL;DR:Mira Murati 团队展示了一款全新交互模型预览版,支持全双工实时音视频对话、说话时打断响应、实时多语言翻译、网页检索及动态工件生成。
全双工实时音视频交互架构
演示开篇介绍了一套全新的全双工(Full-Duplex)音频与视频系统。该系统允许用户将输入流实时传输给模型,模型具备在用户同时说话的情况下进行回应的能力,实现了低延迟、无缝的实时交互体验。
为验证模型的实时视觉感知与指令遵循能力,演示中设定了一项触发规则:每当有新人物进入画面,模型需立即识别并输出“朋友”。模型在多人交替入镜的过程中准确执行了该视觉触发指令。
实时多语言翻译
该预览模型进一步降低了人机对话的门槛,支持低延迟的实时语音翻译。演示中,参与者 Rowan 提出使用印地语进行内容补充,并要求模型同步为现场及观众翻译成英语。模型确认基于预览模型能力,可实现“一边说一边翻译”的实时跨语言交互。
网页搜索与动态工件生成
模型集成了实时网页搜索与工件(Artifact)生成功能,支持多任务并行处理。演示中,参与者询问了人类对触觉、听觉和视觉交流信号的典型简单反应时间。模型通过实时检索返回了精确数据:
- 触觉:约 150 毫秒
- 听觉:140 至 170 毫秒
- 视觉:180 至 250 毫秒
在获取数据后,参与者要求将其可视化。模型即时生成了一张反应时间对比柱状图。在渲染图表的同时,模型仍能保持对话线程,同步响应参与者追加的疑问。
感官反应速度的神经学原理
针对“为何听觉反应速度甚至快于视觉”的疑问,模型给出了简明的机制解释:听觉信号传递至大脑所经过的神经通路比视觉信息更短、更直接,因此神经处理与反应速度更快。该解释与检索到的实测数据相吻合,展示了模型在整合实时检索数据与基础科学常识方面的连贯性。
演示结尾,参与者对模型的响应速度与多模态协同能力表示肯定(“这很棒,Tar”),完整验证了该交互模型在实时流式输入、多模态理解、动态生成与并发任务处理上的核心特性。
Source: https://youtu.be/A12AVongNN4
相似文章
交互模型
Thinking Machines AI 宣布推出交互模型的研究预览版,这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面,该模型旨在让人类始终保持在环,同时提供业界领先的智能水平与响应速度。
@FinanceYF5: Mira Murati说了一件很准的事: 现在的AI模型在思考的时候,基本上是聋的瞎的——它听不到你在说什么,感知不到任何新信息。 人和人之间不是这样的。沉默、打断、同时说话,这些都是信息。 真正的人机协作需要的是"时间型交互"——AI持…
Mira Murati指出当前AI模型在思考时无法实时感知新信息,真正的协作需要时间型交互,持续接收并输出多模态信息。
OpenAI的新语音模型不止于回话
OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。
@rohanpaul_ai: Thinking Machines 正在用始终在线的 AI 取代轮次交互式的 AI。他们刚刚发布了 TML-Interaction-Small,一个 276B 参数的 MoE 模型……
Thinking Machines 发布了 TML-Interaction-Small,这是一个 276B 参数的 MoE 模型,专为实时、始终在线的交互设计,延迟低于 0.4 秒,并集成了多模态处理能力。
@rohanpaul_ai: 就在几天前,Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…
Thinking Machines Lab 和 OpenBMB 发布了 MiniCPM-o 4.5,这是一个 9B 参数的全双工全模态模型,采用 Omni-Flow 框架,支持连续、时间对齐的实时视频和语音交互,超越了之前的模型,并以开源形式提供。