@miramurati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time inter…

X AI KOLs Following 2026/05/11 20:43 模型

摘要

Mira Murati 团队展示了全新交互模型预览版，该模型从头训练，原生支持全双工实时音视频对话、即时打断、多语言翻译及动态多任务处理。演示验证了其在低延迟流式交互、多模态感知与并发任务执行方面的核心能力。

Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time interaction natively, instead of gluing it onto a turn-based one. https://t.co/MoS5s4cm60

查看原文

查看缓存全文

缓存时间: 2026/05/11 22:47

Today we’re sharing our work on interaction models. A new class of model trained from scratch to handle real-time interaction natively, instead of gluing it onto a turn-based one. https://t.co/MoS5s4cm60

TL;DR：Mira Murati 团队展示了一款全新交互模型预览版，支持全双工实时音视频对话、说话时打断响应、实时多语言翻译、网页检索及动态工件生成。

全双工实时音视频交互架构

演示开篇介绍了一套全新的全双工（Full-Duplex）音频与视频系统。该系统允许用户将输入流实时传输给模型，模型具备在用户同时说话的情况下进行回应的能力，实现了低延迟、无缝的实时交互体验。

为验证模型的实时视觉感知与指令遵循能力，演示中设定了一项触发规则：每当有新人物进入画面，模型需立即识别并输出“朋友”。模型在多人交替入镜的过程中准确执行了该视觉触发指令。

实时多语言翻译

该预览模型进一步降低了人机对话的门槛，支持低延迟的实时语音翻译。演示中，参与者 Rowan 提出使用印地语进行内容补充，并要求模型同步为现场及观众翻译成英语。模型确认基于预览模型能力，可实现“一边说一边翻译”的实时跨语言交互。

网页搜索与动态工件生成

模型集成了实时网页搜索与工件（Artifact）生成功能，支持多任务并行处理。演示中，参与者询问了人类对触觉、听觉和视觉交流信号的典型简单反应时间。模型通过实时检索返回了精确数据：

触觉：约 150 毫秒
听觉：140 至 170 毫秒
视觉：180 至 250 毫秒

在获取数据后，参与者要求将其可视化。模型即时生成了一张反应时间对比柱状图。在渲染图表的同时，模型仍能保持对话线程，同步响应参与者追加的疑问。

感官反应速度的神经学原理

针对“为何听觉反应速度甚至快于视觉”的疑问，模型给出了简明的机制解释：听觉信号传递至大脑所经过的神经通路比视觉信息更短、更直接，因此神经处理与反应速度更快。该解释与检索到的实测数据相吻合，展示了模型在整合实时检索数据与基础科学常识方面的连贯性。

演示结尾，参与者对模型的响应速度与多模态协同能力表示肯定（“这很棒，Tar”），完整验证了该交互模型在实时流式输入、多模态理解、动态生成与并发任务处理上的核心特性。

Source: https://youtu.be/A12AVongNN4

相似文章

交互模型

Hacker News Top

Thinking Machines AI 宣布推出交互模型的研究预览版，这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面，该模型旨在让人类始终保持在环，同时提供业界领先的智能水平与响应速度。

@FinanceYF5: Mira Murati说了一件很准的事：现在的AI模型在思考的时候，基本上是聋的瞎的——它听不到你在说什么，感知不到任何新信息。人和人之间不是这样的。沉默、打断、同时说话，这些都是信息。真正的人机协作需要的是"时间型交互"——AI持…

X AI KOLs Following

Mira Murati指出当前AI模型在思考时无法实时感知新信息，真正的协作需要时间型交互，持续接收并输出多模态信息。

@miramurati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time inter…

全双工实时音视频交互架构

实时多语言翻译

网页搜索与动态工件生成

感官反应速度的神经学原理

相似文章

交互模型

OpenAI的新语音模型不止于回话

@rohanpaul_ai: Thinking Machines 正在用始终在线的 AI 取代轮次交互式的 AI。他们刚刚发布了 TML-Interaction-Small，一个 276B 参数的 MoE 模型……

@rohanpaul_ai: 就在几天前，Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…

提交意见反馈