@ziv_ravid: 1/ 论想象力训练 - Dwarkesh 的节目中有个环节将“做梦”视为下一个训练范式。…

X AI KOLs Following 2026/07/01 19:32 新闻

training-paradigm dreaming ai-research podcast imagination machine-learning

摘要

一条推文串，讨论 Dwarkesh Patel 的播客节目中将“做梦”作为 AI 模型下一个训练范式的观点，并链接了一篇相关新论文。

1/ 论想象力训练 - Dwarkesh 的节目中有个环节将“做梦”视为下一个训练范式。其思路是，模型主要依靠自身内部学习，通过想象可能发生的情况，而不是真实尝试。我们有一篇新论文正是关于此话题的：https://t.co/i8qwcErTzQ

查看原文

查看缓存全文

缓存时间: 2026/07/03 08:34

1/ 关于“想象训练”——
Dwarkesh的播客中提到，梦境可能成为下一代训练范式之一。其核心思想是：模型主要通过想象事件结果进行学习，而非真实尝试。
近期恰好有一篇论文探讨了这一方向。

2/ 问题很直接：如果模型在想象的世界而非真实世界中训练，其习得的能力有多少可信度？
可能出错的环节有两个：对世界运行规律的认知，以及对“好结果”的判断标准。

3/ 我们将两者拆解开来分别衡量。
其中“世界运行规律”部分风险最高。模型想象得越远，微小错误就会不断累积，导致漫长的“白日梦”逐渐偏离现实。

4/ 这意味着有改进方向：若想象世界的变化能平滑且可预测地衔接，错误将保持微小，模型的可信度也能更持久。
这与当前世界模型的构建方式不谋而合。

5/ 关键问题来了：预算固定，需分配于两项任务——
• 教会模型世界运行规律（成本低）
• 教会模型何为“好结果”（通常需人类反馈，成本高）
我们找到了两项任务的最佳预算分配方案。

6/ 结果相当惊人：模型学习“何为好”的速度远超学习“世界运行规律”——数据量增加时，前者速度大约是后者的九倍。
因此只需对少量样本标注反馈，其余资源可用于低成本练习。

7/ 研究还表明：即便反馈存在噪音，只要错误是随机的，足够多的尝试后便会相互抵消。因此低成本、稍显粗糙的反馈通常可行。
真正的危险在于带有偏向性的反馈——这种错误永远不会自然消除:(

8/ “梦境训练”是个优雅的比喻。我们的论文明确了它的适用条件与失效边界。
合作者：@NadavTimor, @micahgoldblum, @ylecun, David Harel
论文：arXiv: 2605.06732

相似文章

X AI KOLs Following

关于人工智能下一个训练范式的讨论，涵盖研究赌注、可磨性、RLVR 以及 2027 年的愿景。

X AI KOLs Following

推荐 Anthropic 关于 Memory 和新 Dream 功能的演讲，讨论了 AI 代理中未来记忆的发展。

arXiv cs.LG

本文分析了基于模型的强化学习中的“想象训练”范式，推导了最优样本分配策略，并描述了动态模型和奖励模型的误差如何影响策略回报。

TLDR AI

Google 研究人员提出了一种名为 'Sleep' 的持续学习范式，通过蒸馏和回放将短期上下文知识整合到长期模型参数中。'Dreaming' 阶段则利用强化学习生成用于自我改进的合成课程。

TLDR AI

文章认为，在多样化的强化学习环境中对数百万可验证任务进行AI训练可能实现通用人工智能，并且扩展规模可能克服当前如样本效率低下等限制。文章还探讨了由于缺乏可重复训练的环境，计算机使用方面的进展为何较为缓慢。