@EthanHe_42: 在@latentspacepod播客中,我分享了关于视频生成、世界模型、LLMs、智能体、持续学习以及……的观点
摘要
Ethan He在Latent Space播客中分享了他的见解,讨论了关于视频生成、世界模型、LLMs、智能体、持续学习以及AI下一前沿的关键观点。
查看缓存全文
缓存时间: 2026/06/02 17:37
在 @latentspacepod 播客中,我分享了我对视频生成、世界模型、大语言模型(LLM)、智能体(agent)、持续学习以及下一个前沿领域的看法。
- 视频模型的智能主要来源于语言,而非视频数据。
- 从想法到代码现在很快。瓶颈又回到了是否有足够的算力去尝试每一个想法。
- 在模型开发中,迭代速度几乎胜过其他一切。
- 下一个飞跃不会是一个更好的视频模型,而是一个视频智能体。
- 扩散模型将成为 AGI 的前端,LLM 作为后端。生成式 UI 将取代 HTML/CSS:从用户意图直接到像素。
- 物理具身化可能成为强大 AI 使用的一种工具。机器人技术可能被能处理视频的 LLM 解决。
- 持续学习可能表现为模型管理自身的上下文,甚至在测试时重写自身的框架。
感谢 @swyx 和 @vibhuuuus 邀请我
Apple 播客:https://podcasts.apple.com/us/podcast/latent-space-the-ai-engineer-podcast/id1674008350?i=1000770600564… Spotify:https://open.spotify.com/episode/1ZUjJ0WBqpp5F2vwZbpVSf… Substack 上的文字稿:https://latent.space/p/video-agents
很棒的访谈 @EthanHe_42 @latentspacepod
听起来不错。好播客 @EthanHe_42
相似文章
@swyx: 完整文章和链接在此
Latent Space 播客的一集讨论了这样一个论点:视频模型从大语言模型(LLM)中获取智能,下一个前沿是视频智能体。嘉宾 Ethan He(曾在 xAI 构建 Grok Imagine)分享了构建前沿图像和视频系统的见解。
@swyx: 这个播客是给社区的一份不可思议的礼物:不仅是我们第一个关于 @xAI 的播客,而且 Ethan 真的尽情回答了所有问题…
一条推文称赞了一期播客,前xAI世界模型负责人Ethan He深入分享了训练SOTA视频生成世界模型的见解,涵盖了Grok Imagine、Cosmos,以及视频与编码代理之间的相似之处。
为什么视频代理模型是下一个前沿——Ethan He, xAI Grok Imagine(98分钟阅读)
来自xAI的Ethan He讨论了为什么视频代理模型是下一个前沿,他认为视频模型从LLM中获取智能,并且视频生成的演变将模仿AI编程,从一次性输出转向多轮规划与执行。
@bradwmorris:将优秀的系统设计与思考不仅仅融入软件,而是贯穿到所有 Agentic AI 交互中,是一项巨大的……
Brad Morris 做客 Latent Space 播客,探讨将严谨的系统设计原则应用于 Agentic AI 交互所蕴含的重大机遇。
@awnihannun: @angeloskath 关于使用MLX构建本地自主AI的视频非常出色。我还听说这是观看次数最多的视频之一……
一条推文强调了Angelos Kath在WWDC上关于使用MLX构建本地自主AI的出色视频,指出开源权重模型和硬件能力的快速进展。