AI社交应用是否正从文字聊天转向实时视频交互?
摘要
讨论AI社交应用从文字聊天到实时视频交互的演变,重点介绍了Mel的多模态交互栈以及延迟、唇形同步和协调等技术挑战。
我知道基于文字的角色聊天已经成为一个有效的类别——尤其是在看到[Character.AI](http://Character.AI)崛起后,其创始人来自谷歌/LaMDA类工作背景。但我觉得下一步可能是从文字聊天转向实时视频交互。我最近试用了Mel,有趣之处不仅在于它能让你与角色对话,更在于整个交互栈:语音输入、唇形同步、摄像头感知响应、面部表情,以及一个比通常的虚拟形象/聊天机器人设置更动态的视频角色。例如,如果用户明显在飞机上,角色可以问他们是否在飞机上。如果用户在浴室,它也能注意到这个上下文。我不确定视频中多少是真正实时变化的,哪些是使用了巧妙的预置动画/渲染系统,但唇形同步出奇地好,交互感觉比我见过的多数AI社交应用都更富动态。对于从事多模态或代理接口的人,你们认为技术上最难的是哪一点?
* 低延迟视觉理解
* 语音时序
* 唇形同步
* 实时虚拟形象渲染
* 记忆/上下文
* 让它感觉像是非脚本化的互动,而不是脚本NPC
我的猜测是,挑战不在于单一模型,而更多在于协调:保持语音、视觉、语言、动画和记忆同步,而不让整体感觉延迟或虚假。你认为实时视频会成为严肃的AI接口,还是主要是一种新奇事物,直到延迟/动画质量得到改善?
相似文章
有没有人探索过AI视频智能体?这是新事物,但通过聊天机器人聊天来创建视频真的很有趣。
文章讨论了新兴的AI视频智能体概念,用户只需与聊天机器人对话即可生成完整视频,这可能简化并取代传统的多工具视频制作流程。
早期的AI聊天界面让我想起命令行思维。我在想,什么时候会出现类似GUI的等效物?
反思早期AI聊天界面如何类似于命令行交互模式,并推测何时会出现类似GUI的范式转变,使AI能够直接观察并作用于用户的上下文环境。
交互模型
Thinking Machines AI 宣布推出交互模型的研究预览版,这是一种专为音频、视频和文本领域原生、实时人机协作而设计的全新架构。通过以多流、微轮次设计取代传统的轮流交互界面,该模型旨在让人类始终保持在环,同时提供业界领先的智能水平与响应速度。
您如何看待Higgsfield超级计算机和Invideo Agent One的对话式AI副驾视频制作方式?
讨论用于视频制作的对话式AI副驾方法,以Higgsfield超级计算机和Invideo Agent One为例,并质疑这种编排工作流程是否比直接使用底层模型更有价值。
我们是否正在以人们意识不到的速度超越“Chatbot”时代?
讨论了从基于聊天机器人的AI向能够执行复杂工作流的自主智能体的转变,暗示了重大的用户体验转变。