标签
微软的NextLat论文提出了一种自监督训练方法,让Transformer预测其下一个隐藏状态而非仅仅下一个token,从而形成更紧凑的世界模型,更好地进行规划和推理,并且生成速度提升高达3.3倍。
Qwen-AgentWorld 引入了适用于智能体环境的语言世界模型,涵盖七个领域,并具备长链思维推理能力。该工作包含一个新基准 AgentWorldBench,并且表明世界建模能够提升下游智能体的性能。
微软的NextLat引入了一种训练目标,它奖励信念状态表示,而不是仅仅依赖于下一个词预测,从而推动模型向紧凑的世界模型发展,以实现更好的泛化。
在FAIR工作4.5年后,一名研究员加入AMI Labs,致力于JEPA和World Models的研究。
本文研究了LLM代理是否可以通过交互推断隐藏的世界模型,发现随着复杂性的增加,它们难以构建稳定的内部模型。
本文介绍了奖励作为智能体(Reward as an Agent)和DynDiff-GRPO,以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题,实现了显著的准确率提升。
黄碧薇教授提出AI范式四代论,认为LLM只是第一站,未来是因果世界模型。Aether AI完成2000万美元融资,致力于构建因果世界模型。
本文认为当前世界模型缺乏持久状态核心,提出一种混合方法,通过η-伪酉算子动力学添加时间因果结构,将预训练的GPT-2转化为时间推理模型。
前阿里巴巴千问团队负责人林俊阳的AI实验室完成首轮融资,投后估值达20亿美元。高榕资本和红杉中国各投资1亿美元,腾讯追加2000万美元。该实验室将专注于世界模型和具身智能,而非通用大语言模型。
OdysseyML宣布完成3.1亿美元B轮融资,用于推进世界模型的发展,投资方包括Natural Capital、Amazon、GV、AMD和IQT。
微软研究院提出Next-Latent Prediction (NextLat)方法,一种自监督学习方法,训练变换器预测自身下一个潜在状态,从而形成用于推理和规划的紧凑世界模型,并通过自推测解码实现高达3.3倍的推理加速。
讨论了具身AI和机器人技术面临的挑战,包括10万年的数据差距以及缺乏共享基准,并强调了数据循环、评估系统和部署方面的创业机会。
一篇研究论文提出了‘智能体自动机学习’来评估LLM代理是否能通过交互推断隐藏的世界模型,发现性能随着任务复杂度的增加而急剧下降,并且推理模型优于非推理模型,但仍然存在困难。
本文调研了世界模型的评估方法,主张采用以决策为中心的框架,优先考虑反事实推理、规划与策略优化,而非视觉质量。文中引入了L0–L7评估阶梯及基准协议,使评估与声称的效用一致。
作者发起了一个每周视频模型期刊俱乐部,涵盖视频生成、世界模型、物理推理、扩散模型、流匹配等。首次线下讲座将由 Yilun Du 主讲,主题为“基于世界模型的具身推理”。
Kairos是一个面向物理AI的原生世界模型框架,它通过跨具身数据课程从多样化的经验中学习,利用混合时序注意力维持持久状态,并支持在服务器和消费级硬件上高效部署。
EgoCS-400K 是一个大规模的第一人称反恐精英数据集,包含超过40万段第一人称视频和10,000小时的游戏玩法,为世界模型研究提供了时间对齐的视频-动作-语言轨迹。
Looped World Models 通过共享的Transformer块引入迭代潜在状态细化,实现了100倍的参数效率,同时根据预测复杂度自适应调整计算深度。
COMET 是一种基于模型的强化学习算法,结合了冻结的对象中心编码器、基于 Transformer 的世界模型和 Monte Carlo Tree Search,通过因果注意力聚焦于任务相关对象,在视觉强化学习基准上取得了更高分数。
BadWorld是一种无标签的对抗框架,通过生成不可察觉的扰动来揭示视觉世界模型中的结构漏洞,这些扰动会导致未来展开中的灾难性失败。