使用MediaPipe读取面部表情并实时调整语音的开源智能体

Reddit r/AI_Agents 2026/05/15 16:41 工具

open-source real-time mediapipe face-tracking conversational-ai python-framework multimodal

摘要

Vision Agents 是一个开源Python框架，用于构建处理实时视频和音频的多模态AI智能体。它利用MediaPipe使对话智能体能够根据面部表情和目光方向调整语音。

我一直在开发 Vision Agents，这是一个用于构建实时处理视频和音频的AI智能体的开源Python框架。这是我们基于它构建的一个演示：一个对话智能体，通过摄像头追踪你的面部，分类你的情绪和目光方向，并据此改变与你交谈的方式。该智能体以8fps的频率在摄像头视频流上运行MediaPipe的FaceLandmarker。它每帧提取52个混合变形系数，并将其分类为粗略标签：情绪（happy、sad、surprised、thoughtful、neutral）、目光方向（at camera、off left/right、up、down）以及参与度（engaged、distracted、absent）。分类基于带滞后的阈值（微笑检测时进入阈值为0.45，退出阈值为0.30），并需要4帧的停留时间以防止闪烁。该面部状态会在用户转录文本送入LLM之前被前置添加：[user state: sad, looking down] my day was rough。LLM为Inworld的TTS-2模型选择一种表达风格，该模型支持自然语言指令。你可以编写用方括号括起来的导演注释，例如 [say sadly with deliberate pauses in a low voice]，模型会遵循它们。这不是一个五种情绪的下拉菜单。完全使用自然语言。它还将非语言声音（[laugh]、[sigh]）以实际音频内联呈现。如果你移开视线或离开画面超过5秒，智能体会根据上下文提醒你回来，而不是保持沉默。它永远不会叙述它所看到的（"I notice you looking away"）。摄像头信号为模型提供指导，而不是模型复述的内容。面部追踪器是Vision Agents中的一个“处理器”。处理器接入视频流，并以自己的帧率运行，独立于LLM。你可以在一个智能体中堆叠多个处理器（YOLO以20fps、MediaPipe以8fps、深度模型以15fps），而它们不会互相阻塞。框架负责帧分发。你无需编写线程代码。整个智能体设置大约15行Python代码。每个组件（TTS、STT、LLM、处理器）都是可替换的插件。技术栈：Vision Agents用于编排（MIT许可）、Inworld TTS-2用于语音、Anam用于虚拟形象（其CARA模型）、MediaPipe用于面部特征点检测、Gemini作为LLM、Deepgram用于STT、Stream用于实时视频/音频传输。值得注意这不是什么：它不是那种“能检测你真实感受”的情绪AI。混合变形分类故意保持粗略。微笑超过阈值即为“happy”。抬眉加张下巴即为“surprised”。这提供了足够信号让LLM选择合理的表达风格，但不足以做出临床断言。欢迎提问。

查看原文

使用MediaPipe读取面部表情并实时调整语音的开源智能体

相似文章

有没有人探索过AI视频智能体？这是新事物，但通过聊天机器人聊天来创建视频真的很有趣。

OpenAI的新语音模型不止于回话

Invideo AI 利用 OpenAI 模型将视频创建速度提升 10 倍

我给 AI 代理在我的电脑上装上了“眼睛”

openai/openai-agents-python

提交意见反馈