Mel AI 刚刚展示了一个视频原生 AI 角色的演示,这些角色能实时聊天、反应并响应摄像头上下文 [N]

Reddit r/MachineLearning 产品

摘要

Mel AI 展示了能够通过视频实时聊天、反应并响应视觉上下文的 AI 角色,超越了基于文本的角色聊天。

Character AI 由前 Google/LaMDA 开发者 Noam Shazeer 和 Daniel De Freitas 创立,证明了基于文本的角色聊天可以成为一个真正的娱乐品类。但下一章可能不是更好的文本聊天,而是实时视频交互。Mel AI 最近分享了一段 AI 角色视频聊天的演示,其有趣之处在于交互层:语音、口型同步、面部反应以及感知摄像头的响应,而不是静态头像或聊天框。该角色还能响应视觉上下文。如果用户明显在飞机上或处于不同环境,角色可以在对话中注意到并对此做出反应。我不确定视频层有多少是真正实时生成的,又有多少是依靠巧妙的动画/渲染系统驱动的,但它给人的感觉与通常基于文本的角色 AI 体验有显著不同。Character AI 证明了娱乐 AI 的需求。现在感觉竞争的关键在于谁能打造出实时生动的 AI 角色。演示:[https://x.com/Building_Mel/status/2064848256115626481](https://x.com/Building_Mel/status/2064848256115626481?s=20)
查看原文

相似文章

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。