使用MediaPipe读取面部表情并实时调整语音的开源智能体

Reddit r/AI_Agents 工具

摘要

Vision Agents 是一个开源Python框架,用于构建处理实时视频和音频的多模态AI智能体。它利用MediaPipe使对话智能体能够根据面部表情和目光方向调整语音。

我一直在开发 Vision Agents,这是一个用于构建实时处理视频和音频的AI智能体的开源Python框架。这是我们基于它构建的一个演示:一个对话智能体,通过摄像头追踪你的面部,分类你的情绪和目光方向,并据此改变与你交谈的方式。该智能体以8fps的频率在摄像头视频流上运行MediaPipe的FaceLandmarker。它每帧提取52个混合变形系数,并将其分类为粗略标签:情绪(happy、sad、surprised、thoughtful、neutral)、目光方向(at camera、off left/right、up、down)以及参与度(engaged、distracted、absent)。分类基于带滞后的阈值(微笑检测时进入阈值为0.45,退出阈值为0.30),并需要4帧的停留时间以防止闪烁。该面部状态会在用户转录文本送入LLM之前被前置添加:[user state: sad, looking down] my day was rough。LLM为Inworld的TTS-2模型选择一种表达风格,该模型支持自然语言指令。你可以编写用方括号括起来的导演注释,例如 [say sadly with deliberate pauses in a low voice],模型会遵循它们。这不是一个五种情绪的下拉菜单。完全使用自然语言。它还将非语言声音([laugh]、[sigh])以实际音频内联呈现。如果你移开视线或离开画面超过5秒,智能体会根据上下文提醒你回来,而不是保持沉默。它永远不会叙述它所看到的("I notice you looking away")。摄像头信号为模型提供指导,而不是模型复述的内容。面部追踪器是Vision Agents中的一个“处理器”。处理器接入视频流,并以自己的帧率运行,独立于LLM。你可以在一个智能体中堆叠多个处理器(YOLO以20fps、MediaPipe以8fps、深度模型以15fps),而它们不会互相阻塞。框架负责帧分发。你无需编写线程代码。整个智能体设置大约15行Python代码。每个组件(TTS、STT、LLM、处理器)都是可替换的插件。技术栈:Vision Agents用于编排(MIT许可)、Inworld TTS-2用于语音、Anam用于虚拟形象(其CARA模型)、MediaPipe用于面部特征点检测、Gemini作为LLM、Deepgram用于STT、Stream用于实时视频/音频传输。值得注意这不是什么:它不是那种“能检测你真实感受”的情绪AI。混合变形分类故意保持粗略。微笑超过阈值即为“happy”。抬眉加张下巴即为“surprised”。这提供了足够信号让LLM选择合理的表达风格,但不足以做出临床断言。欢迎提问。
查看原文

相似文章

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。

Invideo AI 利用 OpenAI 模型将视频创建速度提升 10 倍

OpenAI Blog

印度初创公司 Invideo AI 推出了基于 OpenAI 模型(GPT-4.1、o3、gpt-image-1、text-to-speech)构建的多智能体视频创建平台,用户可以通过自然语言提示快速生成专业级视频,速度提升 10 倍。该系统采用专门的 AI 智能体处理规划、编剧、研究、内容审核、视觉生成和配音等工作,目前已为超过 5000 万用户服务,每月创建 700 万个视频。

openai/openai-agents-python

GitHub Trending (daily)

OpenAI 发布 openai-agents-python,这是一个轻量级框架,用于构建多智能体工作流,支持 OpenAI API 和 100+ 其他大语言模型。该 SDK 包含沙箱智能体、工具、护栏、人工介入循环、追踪和实时语音智能体等功能。