real-time-interaction

#real-time-interaction

StepAudio 2.5 技术报告

Hugging Face Daily Papers ↗ · 2026-05-22 缓存

StepAudio 2.5 是一个统一的音频-语言模型，通过利用针对任务定制的基于人类反馈的强化学习来优化共享表示，在自动语音识别（ASR）、文本转语音（TTS）和实时口语交互方面取得了最先进的结果。

0 人收藏 0 人点赞

#real-time-interaction

Reddit r/ArtificialInteligence ↗ · 2026-05-14

回顾2013年的电影《她》，本文探讨了当前AI技术距离复制电影中自主、实时解读的AI还有多远，结论是虽然取得了进展，但完整的意识仍然难以企及。

0 人收藏 0 人点赞

#real-time-interaction

Hacker News Top ↗ · 2026-05-11 缓存

Thinking Machines AI 宣布推出交互模型的研究预览版，这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面，该模型旨在让人类始终保持在环，同时提供业界领先的智能水平与响应速度。

0 人收藏 0 人点赞

#real-time-interaction

X AI KOLs Following ↗ · 2026-05-11 缓存

Mira Murati 团队展示了全新交互模型预览版，该模型从头训练，原生支持全双工实时音视频对话、即时打断、多语言翻译及动态多任务处理。演示验证了其在低延迟流式交互、多模态感知与并发任务执行方面的核心能力。

1 人收藏 1 人点赞

#real-time-interaction

Hugging Face Daily Papers ↗ · 2026-04-30 缓存

MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型，具备 Omni-Flow 框架，支持实时全双工交互，使模型能够同时感知并主动响应。其开源性能达到最先进水平，可与 Gemini 2.5 Flash 相媲美，并能在内存低于 12GB 的边缘设备上运行。

0 人收藏 0 人点赞

#real-time-interaction

OpenAI Blog ↗ · 2024-05-13 缓存

OpenAI发布GPT-4o，一个功能全面的多模态模型，可实时处理音频、视觉、文本和视频，平均音频响应延迟为232毫秒。该模型在文本和代码能力上与GPT-4 Turbo相当，同时显著改进了多语言、音频和视觉功能，API成本降低50%。

0 人收藏 0 人点赞