real-time-interaction

标签

Cards List
#real-time-interaction

StepAudio 2.5 技术报告

Hugging Face Daily Papers · 2026-05-22 缓存

StepAudio 2.5 是一个统一的音频-语言模型,通过利用针对任务定制的基于人类反馈的强化学习来优化共享表示,在自动语音识别(ASR)、文本转语音(TTS)和实时口语交互方面取得了最先进的结果。

0 人收藏 0 人点赞
#real-time-interaction

离《她》还有多远

Reddit r/ArtificialInteligence · 2026-05-14

回顾2013年的电影《她》,本文探讨了当前AI技术距离复制电影中自主、实时解读的AI还有多远,结论是虽然取得了进展,但完整的意识仍然难以企及。

0 人收藏 0 人点赞
#real-time-interaction

交互模型

Hacker News Top · 2026-05-11 缓存

Thinking Machines AI 宣布推出交互模型的研究预览版,这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面,该模型旨在让人类始终保持在环,同时提供业界领先的智能水平与响应速度。

0 人收藏 0 人点赞
#real-time-interaction

@miramurati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time inter…

X AI KOLs Following · 2026-05-11 缓存

Mira Murati 团队展示了全新交互模型预览版,该模型从头训练,原生支持全双工实时音视频对话、即时打断、多语言翻译及动态多任务处理。演示验证了其在低延迟流式交互、多模态感知与并发任务执行方面的核心能力。

1 人收藏 1 人点赞
#real-time-interaction

MiniCPM-o 4.5:迈向实时全双工全模态交互

Hugging Face Daily Papers · 2026-04-30 缓存

MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。

0 人收藏 0 人点赞
#real-time-interaction

Hello GPT-4o

OpenAI Blog · 2024-05-13 缓存

OpenAI发布GPT-4o,一个功能全面的多模态模型,可实时处理音频、视觉、文本和视频,平均音频响应延迟为232毫秒。该模型在文本和代码能力上与GPT-4 Turbo相当,同时显著改进了多语言、音频和视觉功能,API成本降低50%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈