@ziv_ravid: 1/ 论想象力训练 - Dwarkesh 的节目中有个环节将“做梦”视为下一个训练范式。…

X AI KOLs Following 新闻

摘要

一条推文串,讨论 Dwarkesh Patel 的播客节目中将“做梦”作为 AI 模型下一个训练范式的观点,并链接了一篇相关新论文。

1/ 论想象力训练 - Dwarkesh 的节目中有个环节将“做梦”视为下一个训练范式。其思路是,模型主要依靠自身内部学习,通过想象可能发生的情况,而不是真实尝试。 我们有一篇新论文正是关于此话题的:https://t.co/i8qwcErTzQ
查看原文
查看缓存全文

缓存时间: 2026/07/03 08:34

1/ 关于“想象训练”——
Dwarkesh的播客中提到,梦境可能成为下一代训练范式之一。其核心思想是:模型主要通过想象事件结果进行学习,而非真实尝试。
近期恰好有一篇论文探讨了这一方向。

2/ 问题很直接:如果模型在想象的世界而非真实世界中训练,其习得的能力有多少可信度?
可能出错的环节有两个:对世界运行规律的认知,以及对“好结果”的判断标准。

3/ 我们将两者拆解开来分别衡量。
其中“世界运行规律”部分风险最高。模型想象得越远,微小错误就会不断累积,导致漫长的“白日梦”逐渐偏离现实。

4/ 这意味着有改进方向:若想象世界的变化能平滑且可预测地衔接,错误将保持微小,模型的可信度也能更持久。
这与当前世界模型的构建方式不谋而合。

5/ 关键问题来了:预算固定,需分配于两项任务——
• 教会模型世界运行规律(成本低)
• 教会模型何为“好结果”(通常需人类反馈,成本高)
我们找到了两项任务的最佳预算分配方案。

6/ 结果相当惊人:模型学习“何为好”的速度远超学习“世界运行规律”——数据量增加时,前者速度大约是后者的九倍。
因此只需对少量样本标注反馈,其余资源可用于低成本练习。

7/ 研究还表明:即便反馈存在噪音,只要错误是随机的,足够多的尝试后便会相互抵消。因此低成本、稍显粗糙的反馈通常可行。
真正的危险在于带有偏向性的反馈——这种错误永远不会自然消除:(

8/ “梦境训练”是个优雅的比喻。我们的论文明确了它的适用条件与失效边界。
合作者:@NadavTimor, @micahgoldblum, @ylecun, David Harel
论文:arXiv: 2605.06732

相似文章

论想象训练

arXiv cs.LG

本文分析了基于模型的强化学习中的“想象训练”范式,推导了最优样本分配策略,并描述了动态模型和奖励模型的误差如何影响策略回报。

Sleep 用于持续学习(24分钟阅读)

TLDR AI

Google 研究人员提出了一种名为 'Sleep' 的持续学习范式,通过蒸馏和回放将短期上下文知识整合到长期模型参数中。'Dreaming' 阶段则利用强化学习生成用于自我改进的合成课程。

下一个范式(7分钟阅读)

TLDR AI

文章认为,在多样化的强化学习环境中对数百万可验证任务进行AI训练可能实现通用人工智能,并且扩展规模可能克服当前如样本效率低下等限制。文章还探讨了由于缺乏可重复训练的环境,计算机使用方面的进展为何较为缓慢。