@DengHokin: 我非常兴奋地宣布,我发起了一个每周视频模型期刊俱乐部。每周我们会挑选一篇论文进行深入探讨,……
摘要
作者发起了一个每周视频模型期刊俱乐部,涵盖视频生成、世界模型、物理推理、扩散模型、流匹配等。首次线下讲座将由 Yilun Du 主讲,主题为“基于世界模型的具身推理”。
查看缓存全文
缓存时间: 2026/06/16 11:53
我非常激动地宣布,我发起了一个每周一次的视频模型期刊俱乐部。每周我们会挑选一篇论文并进行深入探讨,涵盖视频生成、世界模型、物理推理、扩散模型、流匹配以及相关的一切。
本周五,耶伦·杜(@du_yilun)将亲临@moonlake,为我们带来一场关于“基于世界模型的具体化推理”的演讲——由衷感谢孙凡韵(@sunfanyun)、夏洛特(@xia_char)和辛(@shinshin_oob)的主持。
通过Luma报名参加现场活动:https://luma.com/video-model
#视频 #AI #旧金山
视频模型期刊俱乐部 · 活动日历
来源:https://luma.com/video-model 每周我们会挑选一篇论文并进行深入探讨——视频生成、世界模型、物理推理、扩散模型、流匹配,以及一切相关领域。
活动
耶伦·杜《基于世界模型的具体化推理》封面图
耶伦·杜:基于世界模型的具体化推理
由邓浩钦、孙凡韵、夏洛特·夏、辛等5人组织
美国旧金山
贝晨·张《视觉思考、文本推理:ARC中的视觉-语言协同》封面图
贝晨·张:视觉思考、文本推理——ARC中的视觉-语言协同
王瑞思《解析视频推理》封面图
王瑞思:解析视频推理
蔡钟昂《视频推理模型》封面图
蔡钟昂:视频推理模型
朱廷辉《视频模型可用可验证奖励进行推理》封面图
朱廷辉:视频模型可用可验证奖励进行推理
塔达乌斯·维德默《视频模型是零样本学习者和推理者》封面图
塔达乌斯·维德默:视频模型是零样本学习者和推理者
崔子军《联合音频-视频生成模型理解物理吗?》封面图
崔子军:联合音频-视频生成模型理解物理吗?
相似文章
@swyx: 完整文章和链接在此
Latent Space 播客的一集讨论了这样一个论点:视频模型从大语言模型(LLM)中获取智能,下一个前沿是视频智能体。嘉宾 Ethan He(曾在 xAI 构建 Grok Imagine)分享了构建前沿图像和视频系统的见解。
@aiDotEngineer:规模化构建生成式图像与视频模型 https://youtube.com/watch?v=xOP1PM8fwnk… 图像生成最近热度很高!
@sedielem 在 YouTube 上的演讲,精炼地回顾了生成式图像与视频模型在规模化时的最新进展,涵盖建模、架构、蒸馏与控制。
为什么视频代理模型是下一个前沿——Ethan He, xAI Grok Imagine(98分钟阅读)
来自xAI的Ethan He讨论了为什么视频代理模型是下一个前沿,他认为视频模型从LLM中获取智能,并且视频生成的演变将模仿AI编程,从一次性输出转向多轮规划与执行。
@HuggingPapers: 本周最佳AI论文(5月25-31日):- Gamma-World: 超越双玩家的生成式多智能体世界建模 - SkillO…
精选的5月25-31日顶级AI论文综述,涵盖多智能体世界建模、视觉-语言-动作模型、智能体技能优化和对齐框架。
Qwen的具身世界建模 (28分钟阅读)
Qwen-RobotWorld技术报告提出了一种统一的、语言条件化的视频世界模型,用于具身智能,能够从当前观测中预测未来视频,涵盖机器人、自动驾驶、导航等多个领域,并应用于合成数据生成、策略评估和规划。