@ziv_ravid: 1/ 论想象力训练 - Dwarkesh 的节目中有个环节将“做梦”视为下一个训练范式。…
摘要
一条推文串,讨论 Dwarkesh Patel 的播客节目中将“做梦”作为 AI 模型下一个训练范式的观点,并链接了一篇相关新论文。
查看缓存全文
缓存时间: 2026/07/03 08:34
1/ 关于“想象训练”——
Dwarkesh的播客中提到,梦境可能成为下一代训练范式之一。其核心思想是:模型主要通过想象事件结果进行学习,而非真实尝试。
近期恰好有一篇论文探讨了这一方向。
2/ 问题很直接:如果模型在想象的世界而非真实世界中训练,其习得的能力有多少可信度?
可能出错的环节有两个:对世界运行规律的认知,以及对“好结果”的判断标准。
3/ 我们将两者拆解开来分别衡量。
其中“世界运行规律”部分风险最高。模型想象得越远,微小错误就会不断累积,导致漫长的“白日梦”逐渐偏离现实。
4/ 这意味着有改进方向:若想象世界的变化能平滑且可预测地衔接,错误将保持微小,模型的可信度也能更持久。
这与当前世界模型的构建方式不谋而合。
5/ 关键问题来了:预算固定,需分配于两项任务——
• 教会模型世界运行规律(成本低)
• 教会模型何为“好结果”(通常需人类反馈,成本高)
我们找到了两项任务的最佳预算分配方案。
6/ 结果相当惊人:模型学习“何为好”的速度远超学习“世界运行规律”——数据量增加时,前者速度大约是后者的九倍。
因此只需对少量样本标注反馈,其余资源可用于低成本练习。
7/ 研究还表明:即便反馈存在噪音,只要错误是随机的,足够多的尝试后便会相互抵消。因此低成本、稍显粗糙的反馈通常可行。
真正的危险在于带有偏向性的反馈——这种错误永远不会自然消除:(
8/ “梦境训练”是个优雅的比喻。我们的论文明确了它的适用条件与失效边界。
合作者:@NadavTimor, @micahgoldblum, @ylecun, David Harel
论文:arXiv: 2605.06732
相似文章
@dwarkesh_sp: 下一个训练范式是什么样的?0:00:00 – 实验室正在下的重大研究赌注 0:02:12 – Grindabili…
关于人工智能下一个训练范式的讨论,涵盖研究赌注、可磨性、RLVR 以及 2027 年的愿景。
@omarsar0: 对了,强烈推荐 Anthropic 关于 Memory 和新 Dream 功能的演讲。里面有很多关于……的酷想法。
推荐 Anthropic 关于 Memory 和新 Dream 功能的演讲,讨论了 AI 代理中未来记忆的发展。
论想象训练
本文分析了基于模型的强化学习中的“想象训练”范式,推导了最优样本分配策略,并描述了动态模型和奖励模型的误差如何影响策略回报。
Sleep 用于持续学习(24分钟阅读)
Google 研究人员提出了一种名为 'Sleep' 的持续学习范式,通过蒸馏和回放将短期上下文知识整合到长期模型参数中。'Dreaming' 阶段则利用强化学习生成用于自我改进的合成课程。
下一个范式(7分钟阅读)
文章认为,在多样化的强化学习环境中对数百万可验证任务进行AI训练可能实现通用人工智能,并且扩展规模可能克服当前如样本效率低下等限制。文章还探讨了由于缺乏可重复训练的环境,计算机使用方面的进展为何较为缓慢。