文本作为严肃的优化层(8分钟阅读)
摘要
本文认为,文本优化——修改提示、上下文、记忆和检索——应被视为与权重优化并列的合法学习机制,突出了其样本效率和通过更新时计算进行扩展的能力。
提示、上下文、记忆、检索存储和工具作为真正的更新机制。文章将文本优化定义为样本高效学习,并视其为更新时计算的新维度。
查看缓存全文
缓存时间: 2026/06/11 00:11
# 我们应当更认真地对待文本优化
来源:https://yoonholee.com/blog/2026/we-should-take-text-optimization-more-seriously/
我在机器学习研究者中观察到一种对提示(prompting)或更广义的文本优化的常见负面情绪。其潜在观点似乎是“真正的学习发生在权重中”。我所说的文本优化,广义上是指修改模型周围可变文本层的方法:提示、上下文、文件系统状态、记忆、检索数据库和模型框架(harness)。¹ (https://yoonholee.com/blog/2026/we-should-take-text-optimization-more-seriously/#fn:text-layer)
我认为更广泛的研究社区应当更认真地对待这一层。我将从三个方面论证文本优化的价值:
- **文本优化是一种合法的更新机制**。它在功能上与基于梯度的权重优化相同:根据新信息改变未来行为。
- **文本优化比权重优化的样本效率高得多**,尤其在低数据场景下。相对较短、高似然度的文本具有低描述长度,这为文本优化提供了有利的归纳偏置。
- **文本优化开启了一个新的扩展轴:更新时计算(update-time compute)**。反思性文本优化允许系统在单个经验上花费更多计算进行学习,就像推理时扩展允许模型在单个输入上花费更多计算一样。
## 在权重之外学习
已部署的AI系统不再仅仅是一个被孤立查询的参数向量;它们是复杂的、有状态(stateful)的机器 (https://bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/),包含许多活动部件,权重只是其中之一。一旦将整个系统作为研究对象,学习就意味着改变任何影响行为的条件状态。权重是一种状态,通常通过基于梯度的优化来更新。提示、记忆、检索索引和框架代码是其他状态,它们具有不同的成本、能力和失败模式。重要的问题是:对于给定信息,**哪个更新目标最合适**。
文本制品具有有用的归纳偏置。通常的柯尔莫哥洛夫风格压缩直觉适用:能解释多种情况的简短规范比冗长的异常列表更可能捕捉到真实结构。在这个意义上,好的文本更新是对预训练世界先验的**紧凑补丁**。经验上,文本优化在低数据场景下的样本效率高出几个数量级(¹ (https://arxiv.org/abs/2103.08493)、² (https://arxiv.org/abs/2012.15723)、³ (https://arxiv.org/abs/2507.19457))。因此,大规模场景下的一个反复出现的模式是:使用文本层来引出并组合模型中已有的能力,然后随时间将这些能力蒸馏到权重中(Anthropic (https://www.anthropic.com/index/claudes-constitution)、OpenAI (https://openai.com/index/deliberative-alignment/)、Cursor (https://cursor.com/cursorbench)、Letta (https://github.com/letta-ai/context-constitution)、Hippocratic AI (https://hippocraticai.com/polaris-3/)、Harvey (https://trajectory.ai/field-notes/the-sovereign-path-for-continual-agent-learning-early-results-on-harvey-lab-with-nvidia-nemotron))。
## 更新时计算:一个新的扩展轴
文本层实现了**反思性学习**(Reflexion (https://arxiv.org/abs/2303.11366)、Trace (https://arxiv.org/abs/2406.16218)、GEPA (https://arxiv.org/abs/2507.19457)、Meta-Harness (https://arxiv.org/abs/2603.28052)):一种基于文本的优化循环可以**外部化其关于自身应如何改变的假设**。这使得**假设检验**在更新时变得可扩展地有用:系统可以提出多个文本形式的想法,并在接受或拒绝它们之前对新证据进行测试,就像科学家在确定一个理论之前提出并测试多个理论一样。例如,参见Meta-Harness (https://arxiv.org/abs/2603.28052) 附录A.2中假设检验行为的真实示例。SGD无法廉价地做到这一点;它的单个运行参数向量每次都提交更新,没有简单的方法进行分支和比较。
我认为文本优化的核心前景在于我们可以扩展**“更新时计算”**:正如推理时扩展允许模型在单个实例上花费更多计算来解决它,反思性文本优化允许系统在单个经验上花费更多计算来学习。一个失败的轨迹可以被重新阅读、诊断、抽象化、针对候选修订进行测试,然后转化为提议的更新。因此,文本空间学习在以下情况下特别有用:(1)失败代价高昂,(2)期望行为难以指定,或(3)存在大量离线轨迹数据但无法很好地通过其他方式(SFT或离线RL)利用。
## 支持权重的最强论点及我的反驳
关于将学习保留在权重中,有一些令人信服的论点。对于每一点,我将陈述我认为最有力的论点解释,然后以反驳方式回应。
> 权重提供了**摊薄(amortization)**。一旦行为训练进模型,系统不必在每个上下文窗口中携带该行为的完整规范。相比之下,上下文窗口是一种有限资源。
我认为这是许多类型信息**最终**应当属于权重的一个有力论点。我同意;例如,LLM不应需要长提示来为每个请求解释基本算术。但即便如此,许多有用的信息并不稳定或不够通用,不值得付出摊薄成本,例如收集动态互联网上下文的搜索代理,或依赖于变化的用户历史、偏好和私有状态的个性化代理。我认为正确的框架是将其视为一个路由问题:权重是稳定的、反复有用的信息所属的地方,而文本是信息在易变、局部、可审计或尚未足够可信以进行摊薄时所在的地方。
此外,好的文本层系统并不会将所有可用信息都塞进上下文窗口。它们实现渐进式信息披露,系统根据需要检索并基于相关信息进行条件化(RAG (https://arxiv.org/abs/2005.11401)、MemGPT (https://arxiv.org/abs/2310.08560)、RLM (https://arxiv.org/abs/2512.24601)、Anthropic动态工作流 (https://x.com/ClaudeDevs/status/2060044853279617150)、Meta-Harness (https://arxiv.org/abs/2603.28052))。通过适当的组织,可以很直接地隐式地基于远大于模型输入窗口的上下文进行条件化。当你知道要包含什么时,你可以在上下文中塞入令人惊讶的大量信息。100万token上下文的1%就是1万token,这比本文的三倍还多;希望这足以有意义地改变读者的心智模型。
即使某些信息值得摊薄到权重中,也不必立即摊薄。我已经开始将文本层视为一种灵活的**“暂存区”**,用于那些可能最终蒸馏到权重中的信息。这一层使得在将行为假设提交给模型之前,非常容易测试和优化它们。如何演化文本层并随时间利用它改进权重,这是一个有趣且开放的研究问题,无论通过直接蒸馏(¹ (https://arxiv.org/abs/2209.15189)、² (https://arxiv.org/html/2601.19897v1)、³ (https://arxiv.org/abs/2602.12275)、⁴ (https://arxiv.org/abs/2603.16856))、合成数据生成(⁵ (https://arxiv.org/abs/2504.21798)、⁶ (https://arxiv.org/abs/2601.16443)、⁷ (https://arxiv.org/abs/2602.21193)、⁸ (https://arxiv.org/abs/2604.25727))、修改训练循环本身(⁹ (https://arxiv.org/abs/2603.08640)、¹⁰ (https://arxiv.org/html/2604.14116v1))还是快慢学习框架(¹¹ (https://arxiv.org/abs/2605.12484))。
> 训练权重会创建新的神经回路。文本优化只能从一组固定的权重中引出已有的行为,并且给定这些权重,文本层存在一个天花板。
我同意弱模型使文本优化几乎无法发挥作用。然而,这种天花板并非文本优化独有,甚至有论点将其针对RL (https://openreview.net/forum?id=4OsgYD7em5) 提出。² (https://yoonholee.com/blog/2026/we-should-take-text-optimization-more-seriously/#fn:ceiling-rl) 文本优化并不**需要**创建全新的潜在能力才能变得有用。许多已部署系统的瓶颈不在于模型原则上能否执行某个行为原语,而在于系统能否可靠地引出并组合该行为(mgh (https://alexzhang13.github.io/blog/2026/mgh/))。因此,实际问题在于模型潜在能力与实际部署系统展现的行为之间**还有多少有用的提升空间**。
经验上,改进文本层的提升空间是显著的。这体现在检索增强型问答、测试时扩展和工具使用代理中:当我们改变上下文或执行环境而非权重时,固定模型的行为得到改善(¹ (https://arxiv.org/abs/2005.11401)、² (https://arxiv.org/abs/2201.11903)、³ (https://arxiv.org/abs/2203.11171)、⁴ (https://arxiv.org/abs/2210.03629)、⁵ (https://arxiv.org/abs/2603.28052))。规模似乎也增加了文本条件化的价值:更大的模型变得更好于利用推理时提供的信息,并且一些上下文条件化的能力只在更大规模下出现(¹ (https://arxiv.org/abs/2005.14165)、² (https://arxiv.org/abs/2104.08691)、³ (https://arxiv.org/abs/2206.07682))。
> “存在性论证”:人类大脑显然具有智能。因此,仅通过改变权重来学习一定是可能的。
我实际上想为文本优化提出类似的存在性论证。看看**所有书面文本**的集合(书籍、论文、代码、网页等):好的外部表征极大地放大了人类智能。*如果我们突然与所有外部文本隔绝,我们的工作质量会下降多少?*
> 任何人都可以更改一个文本制品并得到看似更好的输出。文本优化特别容易受到基准泄露和关于模型心理学的民间理论的影响。
首先,文本优化因其早期成功而营销不善。最显眼的例子是那些有趣的模型 quirks,比如“让我们一步步思考” (https://arxiv.org/abs/2205.11916)、“深吸一口气” (https://arxiv.org/abs/2309.03409)、“这对我的职业生涯非常重要” (https://arxiv.org/abs/2307.11760)、人格设置 (https://arxiv.org/abs/2402.10949) 以及威胁和小费 (https://arxiv.org/abs/2508.00614)。也许很容易得出结论:随着新一代模型对这些 tricks 变得更加鲁棒,文本优化本身将会消失。但这混淆了该领域早期薄弱的框架与底层研究问题。
在文本层上进行修修补补非常容易:任何人都可以编辑一条指令并根据精心挑选的输出宣布胜利。³ (https://yoonholee.com/blog/2026/we-should-take-text-optimization-more-seriously/#fn:tinkering) 这种低入门门槛使得这里的糟糕科学非常常见。如果有什么不同的话,我认为这种不成熟的方法论规范正是更严格地研究文本优化的有力论据,尤其是考虑到它的实际重要性。
> 梯度下降是一个真正的优化器。你可以依赖优化、泛化和收敛方面的丰富文献来理解它的工作原理。文本优化是启发式爬山。
收敛理论只保证你会最小化代理损失,而不保证代理与你真正关心的问题一致。更强的优化器只是利用了这种差距;该领域在很大程度上已经从泛化动力学的理论分析转向经验性的扩展律和最佳实践。特别是RL post-training以极其挑剔和容易过拟合而闻名(¹ (https://arxiv.org/abs/2210.10760)、² (https://arxiv.org/abs/2403.17031)、³ (https://arxiv.org/abs/2512.07611)、⁴ (https://arxiv.org/abs/2510.13786))。相比之下,文本层编辑施加了较弱的优化压力,同时保持高度可审计,并且在许多情况下还可组合。
> 神经网络是通用函数逼近器,可以表示任何东西。
表示能力不是着眼点;即使是一个两层MLP在**原则上**可以表示任何函数,但这并不意味着它能高效或可靠地学习做到这一点。我们应该关注**可达行为**,即哪些行为在隐式先验下具有足够高的似然度。框架(harnesses)可以执行我们不会期望冻结模型通过单次前向传递能够实现的行为。
> 文本制品不可移植。它们过度拟合于一个模型的 quirks,并且经常在下一个检查点上失效。
相关的比较是与其他更新制品。为一个模型编写的文本制品可能在另一个模型上失败,但为一个架构训练的权重差分通常根本不可移植。文本制品稍微更可移植一些,因为文本在不同模型之间仍然承载含义。
## 也许钟摆摆动得太远了
“权重才是真正的学习”这一观点部分是对早期AI的反动,当时研究者专注于构建能够通过改变内部参数来学习的系统。几十年来,主导图景将智能视为显式符号操作。Newell和Simon的物理符号系统假设 (https://cacm.acm.org/research/computer-science-as-empirical-inquiry/) 以及Haugeland的GOFAI (https://mitpress.mit.edu/9780262081535/artificial-intelligence/) 是这种思维的典型例子。神经网络表明这过于狭隘:有用的信息显然可以存在于权重中;现代LLM是这一主张的最强证据。
我们似乎过度修正到将权重视为知识的**唯一**正经归宿。这在外观上很奇怪,因为人类认知通常依赖于外部制品。在《野外认知》(Cognition in the Wild (https://mitpress.mit.edu/9780262082310/cognition-in-the-wild/)) 中,Edwin Hutchins将船舶导航分析为由人、仪器、程序和外部表征组成的认知系统。Clark和Chalmers在《扩展心智》(The Extended Mind (https://www.alice.id.tue.nl/references/clark-chalmers-1998.pdf)) 中提出了相关观点:认知系统的边界可以扩展到单个组件的内部状态**之外**。计算机科学版本的这一谱系至少可以追溯到Vannevar Bush的Memex (https://web.mit.edu/sts.035/www/PDFs/think.pdf):一种围绕个人档案中的联想轨迹组织的外部记忆。现代思维工具系统如Notion (https://www.notion.com/) 和Obsidian (https://obsidian.md/) 是将外部记忆融入日常知识工作的具体尝试。
*科学实践*是一个有用的比较。科学的核心目标之一是构建世界的紧凑表征,这**借助**于科学家头脑中的私人直觉但不可还原为它们。通常的产物是结晶化的:一个抽象、一个定理或一个因果模型,可以被写下来并分享。它们的价值在很大程度上**来自**外部化:它们可以被批评、与新证据比较、修订并应用于新情况。文本制品在模型系统中扮演了类似的功能角色:它们是编码与行为相关抽象的外部表征。更新它们就是“学习”,就像根据新证据修订科学理论就是学习一样。
## 呼吁对文本层进行高质量研究
我认为文本优化值得我们在权重优化周围建立的那种社区。
相似文章
@yoonholeee: https://x.com/yoonholeee/status/2064027464926716154
作者认为,文本优化(提示、上下文、记忆)是一种合理且样本高效的学习机制,机器学习社区应更认真地对待它,从而开启一个更新时计算的新扩展维度。
optimize_anything:用于优化任意文本参数的通用API
本文介绍了optimize_anything,一个基于LLM的通用文本工件优化系统,在包括智能体架构发现、调度、CUDA内核生成和装箱在内的多种任务上取得了最先进的结果,展示了通用文本优化的能力。
结构化提示优化与强化学习结合实现复杂文本的全局与局部可解释性
介绍了eXTC,一个具有三个渐进阶段的文本分类器:结构化提示优化以学习自然语言规则手册、将推理蒸馏到紧凑的语言模型中、以及强化学习扩展推理,实现了强大的性能和可解释性。
提示优化为何有效,为何有时无效:基于因果启发的编辑级分析
本文对自动化提示优化进行了基于因果启发的分析,涵盖多种框架、大语言模型和任务,识别出特定编辑类型(如复杂度增加型、元指令型)根据任务特征具有系统的负面或正面效应,从而解释了泛化失败的原因。
为变更优化,而非应用性能
本文指出,软件团队常常过度优化微性能基准测试,却牺牲了开发者体验和工程吞吐量,而这两者才是长期交付速度与可维护性的真正瓶颈。