标签
StepAudio 2.5 是一个统一的音频-语言模型,通过利用针对任务定制的基于人类反馈的强化学习来优化共享表示,在自动语音识别(ASR)、文本转语音(TTS)和实时口语交互方面取得了最先进的结果。
回顾2013年的电影《她》,本文探讨了当前AI技术距离复制电影中自主、实时解读的AI还有多远,结论是虽然取得了进展,但完整的意识仍然难以企及。
Thinking Machines AI 宣布推出交互模型的研究预览版,这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面,该模型旨在让人类始终保持在环,同时提供业界领先的智能水平与响应速度。
Mira Murati 团队展示了全新交互模型预览版,该模型从头训练,原生支持全双工实时音视频对话、即时打断、多语言翻译及动态多任务处理。演示验证了其在低延迟流式交互、多模态感知与并发任务执行方面的核心能力。
MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。
OpenAI发布GPT-4o,一个功能全面的多模态模型,可实时处理音频、视觉、文本和视频,平均音频响应延迟为232毫秒。该模型在文本和代码能力上与GPT-4 Turbo相当,同时显著改进了多语言、音频和视觉功能,API成本降低50%。