我把Meta的TRIBE v2大脑模型改造成实时观看YouTube的AI

Reddit r/ArtificialInteligence 新闻

摘要

一位开发者构建了一个实时AI角色,它能观看YouTube视频并利用Meta的TRIBE v2大脑模型预测皮层反应,将神经信号封装成一个会说话能评论的3D虚拟形象。

**摘要:** 我用了Meta的TRIBE v2大脑模型(能从视频/音频/文本预测fMRI风格的脑活动),围绕它搭建了一个实时处理管线,并赋予了它声音和一张3D脸。结果是一个能观看YouTube视频(如Mr. Beast的视频)并根据预测的大脑活动做出反应的直播AI角色。几天内用Codex搭建完成。这不是在读取真实的大脑,但信号是真实的,整个系统能运作起来相当疯狂。 **声明:** 这是我的个人项目,不是产品发布,没有等待名单,也没有订阅推广。我只是想展示我做的成果,因为这件事居然能实现真的让我惊到了。 Meta发布了TRIBE v2,能从视频、音频和文本预测fMRI风格的大脑活动。这本身就已经是很疯狂的研究了。但它基本上只是一个研究模型。你不能直接把它指向YouTube就突然有一个小小的AI大脑在观看和反应东西。所以我尝试搭建那个系统。结果它居然真的能工作。 我在TRIBE v2周围接了一个实时管线,系统在视频播放时进行观看,处理预测的大脑反应流,并将其作为实时AI评论的核心信号。然后把它变成一个能说话、能动画化的3D角色,能对视频片段做出反应、开玩笑、暂停、评论特定时刻,并解释为什么某些内容看起来吸引人或奇怪。 让我震惊的是,它的感受不像普通的LLM反应机器人。它不只是读取Transcript然后瞎编。评论与大脑模型输出绑定在一起,所以下面有这一层额外的信号。预测的皮层反应成了角色感知的一部分。 **大致架构:** * TRIBE v2处理视频/音频/文本流,生成随时间变化的预测皮层活动 * 实时反应层将信号转化为即时评论 * 更深的上下文层追踪正在发生的事情及其意义 * 幽默/人格层让它感觉像一个角色,而不是一个仪表盘 * 声音+3D虚拟形象层给这个大脑一张能说话和反应的脸 最后这一点很重要。如果你本来就对研究感兴趣,一串神经预测数据是很酷的,但对普通人来说太抽象了。给它一张粗糙的、搞笑的3D脸,突然间就变得可以理解了。你在观看一个角色的反应,但幕后反应是由大脑预测模型塑造的。 我知道这听起来很荒诞。这就是为什么我兴奋。我能拿一个已发布的大脑模型,用Codex把它接入一个实时媒体系统,给它声音和一张脸,然后突然就有了一个根据预测神经活动对互联网做出反应的直播角色。几天就完成了。 让我仍然难以置信的是,它真的感觉像是在观看内容。你能看到它处理一个病毒视频,对特定时刻做出反应、暂停,并解释为什么它认为某些东西吸引人——基于预测的大脑反应信号。 明确一点:我没有声称这在读取任何人的真实大脑。这是预测的平均被试皮层活动,用作信号层。有趣的信号,不是魔法。但这是一个非常真实的信号,整个系统一起工作真的让我觉得相当疯狂。 能把一个已发布的大脑模型变成一个能实时反应的3D角色,感觉像是在 glimpse 一个全新的创作形式。我一直在思考的问题是:当我们有足够的大脑数据来真正连接AI并模拟我们真实的大脑时,会发生什么?我们是不是几乎已经快到了? 很好奇大家怎么看,尤其是有没有其他人也在TRIBE v2上做开发。 演示视频:[https://youtu.be/I4oGPLMVoC0?si=8bz4bFf5tjdMfhRx](https://youtu.be/I4oGPLMVoC0?si=8bz4bFf5tjdMfhRx)
查看原文

相似文章