交互模型
摘要
Thinking Machines AI 宣布推出交互模型的研究预览版,这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面,该模型旨在让人类始终保持在环,同时提供业界领先的智能水平与响应速度。
暂无内容
查看缓存全文
缓存时间: 2026/05/11 21:55
# 交互模型:人机协作的可扩展方法
来源:https://thinkingmachines.ai/blog/interaction-models/
今日,我们宣布推出交互模型的研究预览版:这是一种原生处理交互而非通过外部脚手架处理的模型。我们认为交互性应随智能一同扩展;我们与 AI 协作的方式不应被视为事后补救。交互模型让人们能够像彼此自然协作一样与 AI 协作——它们持续接收音频、视频和文本,并实时思考、响应和行动。
我们从头开始训练一个交互模型。为了确保实时响应速度,我们采用了多流、微轮次设计。我们的研究预览展示了质的新的交互能力,以及在智能和响应速度方面最先进的综合性能。
## 协作瓶颈
许多 AI 实验室往往将 AI 自主工作的能力视为模型最重要的功能。Kwa, T., West, B., Becker, J., et al. Measuring AI Ability to Complete Long Tasks.METR (https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/), 2025.因此,如今的模型和界面并未针对人类保持在环路中进行优化。最近一份前沿模型卡片 (https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf)指出:“重要的是,我们发现当以交互、同步的‘双手键盘’模式使用时,该模型的优势不太明显。以此方式使用时,一些用户认为\[我们的模型\]太慢,未能实现预期的价值。自主运行、长周期的代理框架更能激发模型的编程能力。”
自主界面很有价值,但在大多数实际工作中,用户无法预先完全指定需求然后离开——好的结果受益于一个协作过程,即人类始终保持在线,沿途进行澄清和反馈。然而,人类越来越被排除在外,并非因为工作不需要他们,而是因为界面没有容纳他们的空间。相反,当人们能像与其他人协作一样与 AI 协作时,效率最高:即时通讯、交谈、倾听、观看、展示并在需要时插话——并且让模型也能做到同样这一点。交流可以通过以下方式得到改善:(a) 共现性 (Copresence):人们可以与他人正在交互的内容进行交互;(b) 共时性 (Contemporality):人们在他人生成信息时即时接收并获得即时反馈;(c) 同时性 (Simultaneity):人们同时接收和产生信息。Clark H. and Brennan S., “Grounding in Communication,” in Perspectives on Socially Shared Cognition, 1991.由于口语具有参与性(相较于客观疏离性)的本质,它往往是转瞬即逝的。当今的计算机和知识工作媒介具有类似的交互属性。Ong, W. J.. In*Orality and Literacy: The technologizing of the word*, 1982.
为了解决这个问题,我们需要超越当前针对模型的轮次制接口。如今的模型在单一线程中体验现实。我们指的是商业通用前沿模型——还有一些小规模或专用模型,如 Moshi、PersonaPlex、Nemotron VoiceChat 或 GPT-Realtime-Translate.直到用户完成打字或说话,模型都在等待,无法感知用户在做什么或以何种方式做。直到模型完成生成,其感知才会冻结,在完成或被中断前不再接收新信息。这为人类与 AI 的协作创造了一个狭窄的通道,限制了人的知识、“墨提斯(Metis),因其对实践知识、经验和随机推理的重视……是最适合复杂物质和社会任务的推理模式,这些任务的不确定性如此之大,以至于我们必须信任我们(有经验的)直觉并摸索前行。”Scott, J.C: Métis. In*Seeing like a State: How certain schemes to improve the human condition have failed*, 1998.“稍加反思就会显示……存在大量非常重要但未被组织的知识……:关于时间和地点特定情境的知识。”Hayek, F. A. “The use of knowledge in society.”*The American Economic Review*, 1945.意图和判断有多少能传达给模型,以及有多少模型工作能被理解。想象一下试图通过电子邮件而不是当面解决关键分歧的情景。
在 Thinking Machines,我们相信可以通过使**AI 在任何模态上实时交互**来解决这一带宽瓶颈。这使得 AI 界面能够在用户所在的位置与他们相遇,而不是强迫人类扭曲自己去适应 AI 界面。
大多数现有的 AI 模型是通过外围框架附加交互功能的:缝合组件以模拟中断、多模态或并发。大多数实时商用语音系统使用语音活动检测组件来检测轮次边界。然而,“苦涩的教训”Sutton R.The Bitter Lesson (http://www.incompleteideas.net/IncIdeas/BitterLesson.html), 2019.表明,这些手工打造的系统将被通用能力的进步所超越。**为了让交互性随智能扩展,它必须是模型本身的一部分。**通过这种方法,扩展模型使其变得更聪明*且*成为一个更好的协作者。
## 能力
将交互性作为模型的一部分,解锁了各种否则需要在框架中实现的能力。
- **无缝对话管理。**模型隐式跟踪说话者是在思考、让步、自我纠正还是在邀请回应。没有单独的对话管理组件。
- **语言与视觉插话。**根据上下文,模型在需要时介入,不仅是在用户说完话之后。
- **同时语音。**用户和模型可以同时说话(例如实时翻译)。
- **时间感知。**模型对流逝的时间有直接的感知。
- **同时工具调用、搜索和生成式 UI。**在与用户交谈和倾听的同时,模型可以并发进行搜索、浏览网页或生成 UI——根据需要将这些结果编织进对话中。
在更长的真实会话中,这一切都在持续发生,创造出一种更像是协作而不仅仅是提示的体验。
## 我们的方法
基于时间对齐的微轮次
交互植根于时间,连续的输入和输出流被分割为微轮次。
基于轮次的模型看到交替的令牌序列。时间感知的交互模型看到的是连续的微轮次流,因此沉默、重叠和中断仍然是模型上下文的一部分。交互模型与用户处于持续的双向交换中——同时感知和响应。某些领域将这种交互性视为理所当然——物理世界要求机器人和自动驾驶车辆实时运行。音频全双工模型Moshi, PersonaPlex, nemotron-voicechat, Seeduplex.是另一个例子,其中交互是双向且连续的。
应用同样的原则,我们着手构建一个原生于该机制的交互模型——一个在音频、视频和文本上在同一连续循环中感知和响应的模型。结果是一个围绕两个理念构建的系统:一个保持实时存在感的时间感知交互模型,以及一个处理持续推理、工具使用和长 horizon 工作的异步后台模型。
### 系统概览
交互模型与用户保持持续交换。当任务所需的推理深度无法瞬间产生时,交互模型会委托给一个异步运行的后台模型。这种方法建立在先前的工作之上,如 Qwen-omni、KAME、MoshiRAG.交互模型在整个过程中保持在场——回答后续问题、接受新输入、维持对话线索——并在后台结果到达时将其整合到对话中。
实时
用户
交互模型
后台模型
上下文
响应
工具调用 浏览等
用户与交互模型持续交互,而后台模型执行异步任务。两个系统共享它们的上下文。这种分离让用户既能受益于响应速度,又能获得完整的智能:拥有推理模型的规划、工具使用和代理工作流,同时具备非思考模型的响应延迟。请注意,后台模型和交互模型都具有智能——仅交互模型本身在交互性和智能基准上也具有竞争力。
### 交互模型
我们的起点是连续的音频和视频——本质上是实时的模态。文本可以等待,但实时对话不能。通过首先围绕最困难的案例进行设计,我们得到了一种原生多模态、时间感知且能够处理所有模态的并发输入和输出流的架构。几个设计选择使得这一点成为可能。
**时间对齐微轮次。**交互模型的工作方式是持续交织 200 毫秒输入的处理和 200 毫秒输出的生成微轮次。与其消耗完整的用户轮次并生成完整响应,输入和输出令牌都被视为流。处理这些流的 200 毫秒块使得多种输入和输出模态的近实时并发成为可能。
人类感知
input 0input 1input 2input 3input 4
output 0output 1output 2output 3
模型令牌序列
人类感知保留并发输入和输出流,而模型接收单一的交织令牌序列。借助此设计,模型无需遵守任何人为的轮次边界。相比之下,大多数现有的实时系统需要一个框架来预测轮次边界,以便基于轮次的模型感觉是实时和响应灵敏的。Moshi、PersonaPlex 和 Nemotron Voicechat 是不使用框架检测轮次的全双工系统的例子。它们是更小规模的模型,专注于延迟而不是智能基准。这个框架由比模型本身智能程度低得多的组件组成,例如语音活动检测 (VAD)。这排除了一系列交互模式,如主动插话(“当我出错时打断我”)或对视觉提示的反应(“告诉我我在代码中写了什么 bug")。此外,模型还可以在做诸如边听边说(“从西班牙语实时翻译成英语”)或边看边说(“现场解说这场比赛”)的事情。
因此,所有这些目前需要特殊框架的不同交互模式都变成了模型所能做的特例,随着我们扩大模型规模和训练数据,其质量也会提高。
**无编码器的早期融合。**我们不通过大型独立编码器处理音频和视频,而是选择最小预处理系统。许多全能模态模型需要训练单独的编码器(例如类 Whisper)或解码器(例如类 TTS 模型)。我们转而将音频信号作为 dMel 输入 (Bai, et al. 2024 (https://arxiv.org/abs/2407.15835)),并通过轻量级嵌入层转换。图像被分割成 40x40 的补丁,由 hMLP 编码 (Touvron et al. 2022 (https://arxiv.org/abs/2203.09795))。对于音频解码器,我们使用流头 (Lipman at al. 2022 (https://arxiv.org/abs/2203.09795))。(注:此处原文链接可能有误,保留原文引用格式)。所有组件均从头开始与 transformer 共同训练。
TextFrameAudioEmbeddingTokens40x40 PatchhMLPdMelBag ofembeddings
TransformerTextUnembeddingMelFlow
单个 200 毫秒微轮次交互模型架构示意图。模型输入任意文本、音频或视频子集,并预测文本和音频。**推理优化。**在推理时,200 毫秒的块需要频繁的小尺寸预填充和解码,每个都必须满足严格的延迟约束。不幸的是,现有的 LLM 推理库并未针对频繁的小规模预填充进行优化——它们通常每轮都有大量的开销。为了解决这个问题,我们实现了流式会话。客户端将每个 200 毫秒块作为单独请求发送,而推理服务器将这些块追加到 GPU 内存中的持久序列中。这避免了频繁的内存重新分配和元数据计算,我们已经将此功能的版本上游化到了 SGLang (https://github.com/sgl-project/sglang/pull/19171)。此外,我们还为我们的内核以及我们看到的双向服务形状进行了延迟优化。例如,对于 MoE 内核,我们使用 gather+gemv 策略而不是标准的分组 gemm,如来自 PyTorch (https://www.thonking.ai/p/short-supporting-mixtral-in-gpt-fast) 和 Cursor (https://cursor.com/blog/warp-decode) 的先前工作所示。
**训练器 - 采样器对齐。**我们发现位级训练器 - 采样器对齐有助于训练稳定性以及调试我们系统的各个组件。我们实现了批次不变内核 (https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/),端到端性能开销极小 (<5%)。有趣的是,在一段时间内,使用批次不变内核实际上在端到端上更快,这是因为自定义通信内核不仅是批次不变的,而且延迟也低得多。为了突出两个特定的内核:
- **All-Reduce 和 Reduce-Scatter:** 我们使用 NVLS 实现低延迟通信内核,这些内核在 Blackwell 上是确定性的,并在略有不同的并行策略之间实现位级对齐(即序列并行 (https://arxiv.org/abs/2205.05198) 和张量并行)。
- **注意力机制:** 注意力的主要挑战是 Split-KV,这通常会导致解码和预填充之间的累积顺序不一致。与 Colfax 合作完成的工作然而,我们可以通过选择在解码和预填充之间一致地拆分来保持一致的累积顺序。例如,我们可以拆分 SM 以一次处理 4096 个令牌(左对齐),在预填充和解码中都实现良好的效率。
**交互模型与后台模型之间的协调。**当交互模型进行委托时,它会发送一个丰富的上下文包——不是独立的查询,而是整个对话。结果随着后台模型的产生而流回,交互模型将这些更新交织到对话中,时刻适应用户当前的操作,而不是作为突然的上下文切换。
**安全性。**由于实时交互对安全性的压力与轮次制交换不同,我们的安全工作聚焦于两个轴:模态适当的拒绝和长视界鲁棒性。为了使拒绝在语音中口语化,我们使用文本转语音模型生成拒绝和过度拒绝的训练数据,涵盖一系列不允许的主题,拒绝边界校准为偏好自然措辞但不减坚决的拒绝。为了改善跨扩展语音到语音对话的鲁棒性,我们使用自动红队测试框架生成了多轮拒绝数据,同时保持与模型基于文本的拒绝行为的高度对等性。
## 基准测试
### 智能与交互性的前沿
我们展示我们的交互模型,命名为 `TML-Interaction-Small`,是第一个同时具有强智能/指令遵循**和**交互性的模型。为了衡量交互质量,我们使用 FD-bench,这是少数旨在衡量交互性的现有基准之一。在 FD-bench v1.5 中,模型被给予预录制的音频,必须回应
相似文章
Thinking Machines Lab 的交互模型 [P]
Thinking Machines Lab 发布研究论文,介绍面向 AI 系统的全新交互模型。
@rohanpaul_ai: Thinking Machines 正在用始终在线的 AI 取代轮次交互式的 AI。他们刚刚发布了 TML-Interaction-Small,一个 276B 参数的 MoE 模型……
Thinking Machines 发布了 TML-Interaction-Small,这是一个 276B 参数的 MoE 模型,专为实时、始终在线的交互设计,延迟低于 0.4 秒,并集成了多模态处理能力。
@Saboo_Shubham_: 这并不是一个智能体,仅仅是一个单一的 AI 模型。Thinking Machine 刚刚发布了一款交互模型,能够同时…
Thinking Machine 推出了新款多模态 AI 模型,可同步进行听、看、说、打断、反应、思考及工具调用,展现了模型与智能体的融合。
@thinkymachines: 当 Lilian 讲述故事时,交互模型可以追踪她何时在思考、让步、自我纠正或……
文章重点介绍了一项研究更新,描述了一种交互模型,该模型能够在没有内置对话管理系统的情况下,追踪讲故事过程中的认知状态,如思考、让步和自我纠正。
@miramurati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time inter…
Mira Murati 团队展示了全新交互模型预览版,该模型从头训练,原生支持全双工实时音视频对话、即时打断、多语言翻译及动态多任务处理。演示验证了其在低延迟流式交互、多模态感知与并发任务执行方面的核心能力。