@yoonholeee: https://x.com/yoonholeee/status/2064027464926716154
摘要
作者认为,文本优化(提示、上下文、记忆)是一种合理且样本高效的学习机制,机器学习社区应更认真地对待它,从而开启一个更新时计算的新扩展维度。
查看缓存全文
缓存时间: 2026/06/10 00:18
我们应当更认真地对待文本优化
我观察到机器学习研究者之间对提示词(prompting),或更广义的文本优化,普遍存在一种负面情绪。其潜在观点似乎是“真正的学习发生在权重中”。我这里说的文本优化,广义上是指那些修改模型周围可变文本层的方法:提示词、上下文、文件系统状态、记忆、检索数据库和模型框架(harnesses)。[1] 我认为更广泛的研究社区应当更认真地对待这一层。我将从三个角度为文本优化辩护:
-
文本优化是一种合法的更新机制。 它与基于梯度的权重优化扮演着相同的功能角色:根据新信息改变未来的行为。
-
文本优化的样本效率远高于权重优化,尤其是在低数据场景下。相对较短、高可能性的文本具有较低的描述长度,这赋予了文本优化有利的归纳偏置。
-
文本优化开启了一个新的扩展轴:更新时计算(update-time compute)。 反思性的文本优化让系统可以从单一经验中花费更多计算进行学习,类似于推理时扩展(inference-time scaling)让模型在单个输入上花费更多计算。
在权重之外学习
已部署的AI系统不再仅仅是一个被孤立查询的参数向量;它们是复杂的、有状态的机器,拥有许多活动部件,权重只是其中之一。一旦将这个整体系统作为研究对象,学习就意味着改变任何行为条件状态。权重是其中一种状态,通常通过基于梯度的优化来更新。提示词、记忆、检索索引和框架代码是其他状态,各有不同的成本、容量和失败模式。关键问题是,对于给定的信息,哪种更新目标最为合适。
文本制品具有有用的归纳偏置。通常的柯尔莫哥洛夫式压缩直觉在此适用:解释多个案例的简短规范,比冗长的异常列表更有可能捕获真实结构。从这个意义上说,好的文本更新是对预训练世界先验的紧凑补丁。实证上,在低数据场景下,文本优化的样本效率高出数个数量级(1, 2, 3)。正因如此,大规模系统中反复出现的模式是:先使用文本层来引发和组合模型中的现有能力,然后随时间将其蒸馏到权重中(Anthropic, OpenAI, Cursor, Letta, Hippocratic AI, Harvey)。
更新时计算:一个新的扩展轴
文本层实现了反思性学习(Reflexion, Trace, GEPA, Meta-Harness):一个基于文本的优化循环可以外化其自身关于应如何改变的假设。这使得假设检验在更新时变得可扩展:系统可以在文本中提出多个想法,并在接受或拒绝它们之前,用新证据对其进行测试,就像科学家在确定一个理论之前可能会提出并测试多个理论一样。参见Meta-Harness附录A.2中此类假设检验行为的真实示例。SGD无法廉价地做到这一点;其单一运行的参数向量每次更新都直接提交,没有简单的方法进行分叉和比较。
我认为文本优化的核心前景在于我们可以扩展**“更新时计算”**:正如推理时扩展允许模型花费更多计算来解决单个实例,反思性文本优化允许系统花费更多计算从单个经验中学习。一段失败的经历可以被重新阅读、诊断、抽象化,针对候选修订方案进行测试,然后转化为提议的更新。因此,文本空间学习在以下情况下尤其有用:(1) 失败代价高昂,(2) 所需行为难以指定,或 (3) 存在大量离线轨迹数据,但其他方法(SFT或离线RL)效果不佳。
支持权重的最强论点,以及我的反驳
关于将学习保留在权重中,有一些令人信服的论点。对于每一点,我将陈述我对该论点最有力的解读,然后以反驳风格进行回应。
权重提供了摊还(amortization)。一旦行为被训练到模型中,系统就不再需要在每个上下文窗口中携带该行为的完整规范。相比之下,上下文窗口是一种有限资源。
我认为这是一个强有力的论点,表明许多类型的信息最终应该属于权重。我同意;例如,LLM不应每次请求都需要一个冗长的提示词来解释基础算术。即便如此,许多有用的信息并不够稳定或通用,不值得付出摊还成本,例如收集动态互联网信息的搜索代理,或依赖于不断变化的用户历史、偏好和私有状态的个性化代理。我认为正确的框架是将其视为路由问题:权重是稳定、反复有用的信息所属之处,而文本则是信息在易变、局部、可审计或尚不值得摊还时所处之处。
此外,良好的文本层系统并不会将所有可用信息都倾倒入上下文窗口。它们实现渐进式信息披露(progressive disclosure of information),系统根据需要检索并关联相关信息(RAG, MemGPT, RLM, Anthropic动态工作流, Meta-Harness)。通过恰当的组织,隐式地关联比模型输入窗口大得多的上下文是相当直接的。当你知道该包含什么时,可以将数量惊人的信息塞入上下文。100万token上下文的1%就是1万token,比本文的三倍还多;希望这足以让读者阅读后显著改变其心智模型。
即使某些信息值得摊入权重,也不必立即摊还。我开始将文本层视为一种灵活的“暂存区”(staging ground),用于存储那些可能最终蒸馏到权重中的信息。这一层使得在将行为假设提交给模型之前,非常容易测试和优化。如何演化文本层并利用它随时间改进权重的机制,是一个有趣且开放的研究问题——无论是通过直接蒸馏(1, 2, 3, 4)、合成数据生成(5, 6, 7, 8)、修改训练循环本身(9, 10),还是快慢学习框架(11)。
训练权重会创建新的神经回路。文本优化只能从固定的权重集合中引发现有行为,而给定这些权重,文本层能达到的极限是有限的。
我同意弱模型会使文本优化几乎无用武之地。然而,这种极限并非文本优化所独有,甚至有人针对RL提出过同样的论点。[2] 文本优化不需要创造全新的潜在能力才有用。许多已部署系统的瓶颈不在于模型原则上能否执行某种行为原语,而在于系统能否可靠地引发和组合该行为(mgh)。因此,实际问题在于模型的潜在能力与部署系统实际表现出的行为之间,还有多少有用的提升空间。
实证上,改进文本层的提升空间是显著的。这在检索增强型问答、测试时扩展和工具使用代理中都有体现:当我们改变上下文或执行环境而非权重时,固定模型的行为得到了改进(1, 2, 3, 4, 5)。规模也似乎增加了文本条件化的价值:更大的模型在推理时能更好地利用提供的信息,并且某些上下文条件化的能力仅在大规模下才会出现(1, 2, 3)。
“存在性论证”:人脑显然是智能的。仅通过改变权重来学习一定是可能的。
实际上,我会为文本优化提出一个类似的存在性论证。看看所有书面文本的集合(书籍、论文、代码、网页等):良好的外部表示极大地放大了人类智能。如果我们突然与所有外部文本隔绝,我们的工作质量会受到多大影响?
任何人都可以更改一个文本制品并获得看起来更好的输出。文本优化特别容易受到基准测试泄露和关于模型心理学的民间理论的影响。
首先,文本优化因其早期成功而被营销得不好。最显著的例子是一些有趣的模型怪癖,比如“让我们一步一步思考”、“深呼吸”、“这对我的职业生涯非常重要”、角色设定,以及威胁和小费。人们或许会倾向于认为,随着更新的模型对这些技巧变得更加鲁棒,文本优化本身会消失。但这混淆了该领域一个薄弱的早期框架与基础研究问题。
在文本层上进行修补非常容易:任何人都可以编辑一条指令,并基于精心挑选的输出宣布胜利。[3] 这种低门槛使得糟糕的科学在此很常见。我认为,这种不成熟的方法论规范恰恰是更严格研究文本优化的有力论据,尤其是考虑到它的实际重要性。
梯度下降是一个真正的优化器。你可以依赖大量关于优化、泛化和收敛的文献来理解其工作原理。文本优化则是启发式爬山法。
收敛理论只保证你会最小化代理损失(proxy loss),并不保证代理损失与你真正关心的目标一致。更强的优化器只会利用这一差距;该领域在很大程度上已从泛化动态的理论分析转向了经验性的扩展律和最佳实践。特别是RL后训练,以其难以捉摸且容易出现过拟合而闻名(1, 2, 3, 4)。相比之下,文本层编辑施加了较弱的优化压力,同时保持高度可审计性,并且在许多情况下还可组合。
神经网络是通用函数逼近器,可以表示任何事物。
表示能力并不是需要关注的重点;即使是两层MLP原则上也能表示任何函数,但这并不意味着它能高效或可靠地学会这样做。我们应该关注可达行为(reachable behavior),即哪些行为在隐式先验下具有足够高的可能性。框架可以明显地执行那些我们不会期望冻结模型通过单次前向传播就能执行的行为。
文本制品不可移植。它们过度贴合一个模型的癖好,常常在下一个检查点(checkpoint)上失效。
相关的比较对象是其他更新制品。为一个模型编写的文本制品可能在另一个模型上失效,但为一个架构训练的权重增量通常根本不可移植。文本制品稍微更具可移植性,因为文本在不同模型间仍携带意义。
也许钟摆摆得太远了
“权重才是真正的学习”这一观点,部分是对早期AI的回应,当时研究者们专注于构建能够通过改变内部参数来学习的系统。几十年来,主导图景将智能视为显式的符号操作。纽厄尔和西蒙的物理符号系统假设以及豪格兰德的GOFAI是这种心态的典型例子。神经网络表明这过于狭隘:有用的信息显然可以存在于权重中;现代LLM是这一主张的最有力证据。
我们似乎矫枉过正,将权重视为知识的唯一严肃归宿。如果放远眼光,这很奇怪,因为人类认知通常依赖于外部制品。在《荒野中的认知》(Cognition in the Wild)一书中,埃德温·哈钦斯分析船舶导航是一种由人、仪器、程序和外部表示构成的认知系统。克拉克和查尔默斯在《扩展心灵》(The Extended Mind)中提出了一个相关观点:认知系统的边界可以扩展到单个组件的内部状态之外。这条脉络的计算机科学版本至少可以追溯到万尼瓦尔·布什的Memex:一种围绕个人档案中的联想轨迹组织的外部记忆。当代的思维工具系统,如Notion和Obsidian,是将外部记忆融入日常知识工作的具体尝试。@fortelabs @ivanhzhao @kepano
科学实践是一个有用的比较。科学的核心目标之一是构建世界的紧凑表示,这得益于科学家头脑中的私人直觉,但不能还原为这些直觉。通常的产品是结晶化的:一个抽象概念、一个定理或一个因果模型,它们可以被写下来并分享。它们的价值在很大程度上来自外部化:它们可以被批评、与新证据比较、修订,并应用于新案例。文本制品在模型系统中扮演着类似的功能角色:它们是编码行为相关抽象的外部表示。更新它们就是“学习”,正如根据新证据修正科学理论就是学习一样。
呼吁对文本层进行高质量研究
我认为文本优化应该得到我们围绕权重优化所建立的同样类型的社区关注,我希望这里有更多高质量的研究。在不久的将来,有几个方向似乎已经成熟,可以进行基础性工作:
-
文本层的理论分析。 总体而言,文本空间提供了比权重空间好得多的先验,而清晰地将这一观察形式化可能对指导实践非常有用。这篇较旧的论文是一个有希望的开端,它将PAC-Bayes应用于2023级别模型的提示词,非常值得用最新一代的模型和文本制品重新审视。
-
更好的评估。 CL-bench是对上下文学习进行恰当评估的初步尝试,而像TerminalBench-2这样的代理基准测试已在某种程度上成为框架的战场。尽管如此,我们仍然需要更多的基准测试,能够隔离文本层的有用属性,在控制权重能力的同时标记出文本层所启用的新型过拟合和作弊方式。
-
“架构研究”,即理解设计空间。关于文本层,有太多提议的设计,从指令层次结构、DSPy程序、代理技能、OpenClaw式代理,以及大量的记忆系统设计。在某种意义上,这些都是一个庞大设计空间中的点,但我们没有好的方式来讨论这个空间,更不用说比较其中的不同点了。
-
人机交互研究,探讨如何从人类那里获取输入以优化文本层,以及如何将系统的内部状态呈现给用户进行检查和修改。我认为找出与文本层交互的正确方式,可以使让顶尖领域专家定期与AI系统进行“语言微调”环节在经济上变得可行。我不知道这个方向上有什么好的工作实例,但我自己的这篇论文本质上就是出于这个动机,尽管它工作在一个非常有限的领域。
-
认真扩大文本优化的规模,包括建立扩展律。目前分配给文本优化的计算预算比权重后训练的规模小数个数量级。例如,一个扩展后的制品可能类似于维基百科规模的知识/框架层,从零开始针对可测量的模型系统性能进行优化[4]。
感谢@lateinteraction @allenainie @chelseabfinn @a1zhang @abeirami @qizhengz_alex对早期草稿的出色反馈。这篇文章是过去一年左右我与许多研究者对话的结晶,在此不一一列举。
交叉发布于 https://yoonholee.com/blog/2026/we-should-take-text-optimization-more-seriously/
脚注
[1] 我使用“文本”是因为语言是最清晰、最常见的案例,但这个论点应更广泛地适用于能够条件化模型未来行为的外部制品。
[2] 参见LeCun的“蛋糕”类比,他将RL视为蛋糕上的樱桃(无监督学习是蛋糕本身)。我不同意对RL的这种最小化看法,但这是一个相关的历史例子。
[3] 也归功于很难在这一层上作弊——由于文本的直接性质,很难意外地制造出看起来不错的假结果。这与在训练数据和训练方法上作弊形成对比,后者更容易制造出好结果而不被立即察觉。
[4] “系统性能”应在此处宽泛理解:用户满意度、多次查询中行为的一致性、下游任务的改进等。
相似文章
文本作为严肃的优化层(8分钟阅读)
本文认为,文本优化——修改提示、上下文、记忆和检索——应被视为与权重优化并列的合法学习机制,突出了其样本效率和通过更新时计算进行扩展的能力。
@polynoamial: https://x.com/polynoamial/status/2064210146558136827
本文认为,LLM基准测试性能越来越依赖于测试时的计算量,而当前的评估方法在控制推理预算时无法捕捉到能力的提升。它主张绘制性能与token数、成本或时间的关系图,并讨论了对安全评估的影响。
@LakshyAAAgrawal: 从丰富的文本反馈(错误、轨迹、部分推理)中学习,对于LLM优化来说,优于仅使用标量奖励。…
快速-慢速训练(FST)将上下文优化(通过GEPA)与通过强化学习进行的模型权重更新交替进行,在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率,同时保持了可塑性并实现了持续学习。
结构化提示优化与强化学习结合实现复杂文本的全局与局部可解释性
介绍了eXTC,一个具有三个渐进阶段的文本分类器:结构化提示优化以学习自然语言规则手册、将推理蒸馏到紧凑的语言模型中、以及强化学习扩展推理,实现了强大的性能和可解释性。
@ickma2311: 高效AI讲座15:长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是:哪些过…
本文总结了关于长上下文LLM的高效AI讲座15,涵盖用于上下文扩展的RoPE位置插值、大海捞针评估,以及StreamingLLM的注意力汇聚现象和KV缓存驱逐策略。