optimize_anything：用于优化任意文本参数的通用API

arXiv cs.CL 2026/05/20 04:00 论文

摘要

本文介绍了optimize_anything，一个基于LLM的通用文本工件优化系统，在包括智能体架构发现、调度、CUDA内核生成和装箱在内的多种任务上取得了最先进的结果，展示了通用文本优化的能力。

arXiv:2605.19633v1 公告类型：新摘要：一个单一的基于LLM的优化系统能否在根本不同的领域与专业工具匹敌？我们证明，当优化问题被表述为改进由评分函数评估的文本工件时，一个支持单任务搜索、跨问题迁移的多任务搜索以及泛化到未见输入的单一基于AI的优化系统，在六个不同的任务上取得了最先进的结果。我们的系统发现了使Gemini Flash的ARC-AGI准确率几乎翻三倍（从32.5%提升到89.5%）的智能体架构，找到了将云成本降低40%的调度算法，生成了87%与PyTorch匹配或更优的CUDA内核，并超越了AlphaEvolve报告的圆装箱方案（n=26）。在三个领域的消融实验表明，可操作的辅助信息比仅反馈评分能带来更快的收敛速度和更高的最终分数；并且，在同等每个问题的预算下，多任务搜索通过跨任务迁移优于独立优化，其收益随相关任务数量的增加而扩大。共同地，我们首次证明，基于LLM搜索的文本优化是一种通用问题解决范式，将传统上需要领域特定算法的任务统一在单一框架下。我们在GEPA项目（https://github.com/gepa-ai/gepa）中开源了optimize\_anything，支持多种后端。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:26

# 优化任意文本参数的通用API 来源：https://arxiv.org/html/2605.19633 \\setcctype by\\acmBadgeR\[https://www\.acm\.org/publications/policies/artifact\-review\-and\-badging\-current\]figures/artifacts\-available\-v1\.1\.pdf\\acmBadgeR\[https://www\.acm\.org/publications/policies/artifact\-review\-and\-badging\-current\]figures/artifacts\-functional\-v1\.1\.pdf\\acmBadgeR\[https://www\.acm\.org/publications/policies/artifact\-review\-and\-badging\-current\]figures/results\-reproduced\-v1\.1\.pdf ## optimize\_anything: 优化任意文本参数的通用API ,Donghyun LeeUC BerkeleyUSAlukedhlee@berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Shangyin TanUC BerkeleyUSAshangyin@berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Wenjie MaUC BerkeleyUSAwindsey@berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Karim ElmaaroufiUC BerkeleyUSAelmaaroufi@berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Rohit SandadiUC BerkeleyUSArohitsandadi@berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Sanjit A\. SeshiaUC BerkeleyUSAsseshia@eecs\.berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Koushik SenUC BerkeleyUSAksen@cs\.berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Dan KleinUC BerkeleyUSAklein@berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Ion StoicaUC BerkeleyUSAistoica@cs\.berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Joseph E\. GonzalezUC BerkeleyUSAjegonzal@eecs\.berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Omar KhattabMITUSAokhattab@mit\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]),Alexandros G\. DimakisUC BerkeleyUSAalexdimakis@berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected])andMatei ZahariaUC BerkeleyUSAmatei@berkeley\.edu (https://arxiv.org/html/2605.19633v1/mailto:[email protected]) \(2026\) ###### 摘要\. 一个单一的基于LLM的优化系统能否在根本不同的领域上媲美专业工具？我们证明，当优化问题被表述为改进一个由评分函数评估的文本工件时，一个单一的基于AI的优化系统——支持单任务搜索、具有跨问题迁移的多任务搜索以及泛化到未见输入——在六个不同任务上取得了最先进的结果。我们的系统发现了将Gemini Flash的ARC-AGI准确率提升了近三倍的智能体架构（32.5% → 89.5%），找到了将云成本削减40%的调度算法，生成了87%匹配或超越PyTorch的CUDA内核，并超越了AlphaEvolve报告的圆填充解（n=26）。在三个领域上的消融实验表明，可操作侧面信息比仅分数反馈能带来更快的收敛速度和显著更高的最终分数；在等价每问题预算下，多任务搜索通过跨任务迁移优于独立优化，且收益随相关任务数量增加而扩展。总之，我们首次表明，基于LLM搜索的文本优化是一种通用问题解决范式，将传统上需要领域特定算法的任务统一在一个框架下。我们将optimize\_anything开源，支持多个后端，作为GEPA项目的一部分，地址为https://github.com/gepa-ai/gepa。 LLM优化、文本工件优化、进化搜索、提示工程、智能体系统、Pareto优化 ††journalyear:2026††copyright:cc††conference:ACM人工智能与智能体系统会议；2026年5月26-29日；美国加利福尼亚州圣何塞††booktitle:ACM人工智能与智能体系统会议 (CAIS '26)，2026年5月26-29日，美国加利福尼亚州圣何塞††doi:10\.1145/3786335\.3813167††isbn:979\-8\-4007\-2415\-2/2026/05††ccs:计算方法论 自然语言处理††ccs:计算方法论 神经网络††ccs:计算方法论 人工智能参见说明图1\.optimize\_anything循环：文本工件xx被传递给评估器f\(x\)f\(x\)，返回分数和诊断反馈 \(SI\)，由LLM提议者消费以生成改进的工件。同一API跨领域实例化：代码优化、提示调优、智能体架构搜索和策略发现。系统图展示了optimize\_anything循环。字符串工件被评估，产生分数和SI反馈，这些反馈被输入到LLM提议者，生成改进的候选方案。展示了针对代码、提示、智能体和策略的示例实例化。## 1\.引言 大语言模型在配合自动评估时可以作为有效的优化器。FunSearch\(Romera-Paredes et al.,2024 (https://arxiv.org/html/2605.19633#bib.bib23)\)进化Python函数以发现超越已知界限的数学构造。AlphaEvolve\(Novikov et al.,2025 (https://arxiv.org/html/2605.19633#bib.bib19)\)将这一思想扩展到更广泛的代码优化，改进了56年历史的矩阵乘法界限并设计了谷歌数据中心的调度启发式方法，但它仅操作于代码工件，且只在单任务模式下（一次一个问题）。GEPA\(Agrawal et al.,2026b (https://arxiv.org/html/2605.19633#bib.bib4)\)在提示优化中取得了最先进的结果，并具有对未见输入的泛化能力，但仅限于提示；MIPROv2\(Opsahl-Ong et al.,2024 (https://arxiv.org/html/2605.19633#bib.bib20)\)同样针对提示和少样本选择。尽管在其工件类型内取得了强劲结果，但没有现有系统被应用于智能体架构、数值优化或图像生成，也没有单一系统同时在根本不同的领域展示了有效性。 我们观察到，广泛的问题可以表述为优化一个文本工件。无论工件是CUDA内核、云调度策略、智能体架构、可缩放矢量图形（SVG）还是系统提示，结构都是相同的：将工件序列化为字符串，对其进行评估，并让LLM基于诊断反馈提出改进。这一观察表明存在一个更加简单的接口和统一算法。我们提出optimize\_anything（最初作为Agrawal等人(2026a)发布），这是一个实现这一洞察的声明式API。用户提供种子工件（或在无种子模式下，仅提供自然语言目标）、一个返回分数和可选诊断反馈的评估器，以及可选的数据集。系统处理提示构建、反思、候选选择和搜索策略。这一声明式设计，受DSPy的编程而非提示原则启发，意味着同一个API调用无论是优化LLM提示、智能体架构还是图像都同样适用。 我们的贡献如下： 1. \(1\)一个单一的基于LLM的文本优化系统在六个根本不同领域上匹配或超越了领域特定工具。我们是第一个展示单一系统（我们提出的optimize\_anything）可以优化代码、提示、智能体架构、数值配置和图像，并在每个领域取得最先进结果的工作。我们的系统发现了将ARC-AGI准确率提升近三倍的智能体架构（32.5%→→89.5%），找到了将云成本削减40%的调度算法，生成了87%匹配或超越PyTorch基线的CUDA内核，创建了在数值优化中匹配并超越Optuna的自定义求解器代码，并在圆填充上优于AlphaEvolve的解。这确立了基于LLM的文本优化作为一种通用问题解决范式，不限于代码或提示。 2. \(2\)三种优化模式——单任务、多任务和泛化——统一在一个接口下，包括首次的多任务模式。现有的LLM进化系统各自只支持一种模式。AlphaEvolve\(Novikov et al.,2025 (https://arxiv.org/html/2605.19633#bib.bib19)\)、OpenEvolve\(Sharma,2025 (https://arxiv.org/html/2605.19633#bib.bib25)\)和ShinkaEvolve\(Lange et al.,2025 (https://arxiv.org/html/2605.19633#bib.bib14)\)在单任务模式下操作：一次为一个问题优化一个代码工件。GEPA\(Agrawal et al.,2026b (https://arxiv.org/html/2605.19633#bib.bib4)\)和MIPROv2\(Opsahl-Ong et al.,2024 (https://arxiv.org/html/2605.19633#bib.bib20)\)在泛化模式下操作：优化一个提示以在未见输入上表现良好，但仅限提示。没有先前系统支持多任务搜索，即一起解决一批相关问题能够实现发现优化模式的跨迁移。optimize\_anything将所有三种模式统一在一个接口下：CUDA内核上的多任务搜索在等价每问题预算下优于独立的单任务优化（§5.8 (https://arxiv.org/html/2605.19633#S5.SS8)），并且泛化扩展到智能体架构（§5.3 (https://arxiv.org/html/2605.19633#S5.SS3)）和调度策略（§5.2 (https://arxiv.org/html/2605.19633#S5.SS2)）。所有优化模式都通过相同的optimize\_anythingAPI表达。 3. \(3\)侧面信息作为一等评估器契约。先前的框架通过临时的、框架特定的机制支持诊断反馈。optimize\_anything将其提升为统一的API契约：任何诊断信息——堆栈跟踪、分析器数据、渲染图像、结构化错误报告——通过一个接口流向提议者。在三个领域（提示优化、圆填充和CUDA内核）上的消融实验表明，可操作侧面信息相比仅分数反馈能带来4-6×\\times倍的更快收敛速度和显著更高的最终性能（§5.9 (https://arxiv.org/html/2605.19633#S5.SS9)）。 我们通过将Agrawal等人(2026b)（最初仅针对提示优化研究）的基于Pareto的搜索扩展到任意文本工件，并添加单任务和多任务模式来实现这些结果。基于每个示例或每个度量的Pareto支配而非聚合分数来选择候选者，从而保留跨迭代的互补优势。表2 (https://arxiv.org/html/2605.19633#S4.T2)提供了详细比较。 我们在跨越所有三种优化模式的六个主要领域（表1 (https://arxiv.org/html/2605.19633#S3.T1)）上评估optimize\_anything，另外两个领域（黑盒数学优化和3D建模）作为初步演示放在附录中。关键结果包括：\(i\) 进化的智能体架构将Gemini Flash的ARC-AGI准确率提升了近三倍（32.5%→→89.5%）；\(ii\) 发现的云调度算法将成本削减高达40%；\(iii\) 87%的生成CUDA内核匹配或超越来自KernelBench的PyTorch基线，且多任务模式优于专门的单任务优化；\(iv\) 提示优化将GPT-4.1-mini的AIME-2025准确率从46.67%提升到60.00%；以及\(v\) 我们的圆填充解优于AlphaEvolve发表的解，通过在匹配条件下对OpenEvolve进行受控重新运行确认。在三个领域上的消融实验表明，可操作侧面信息相比仅分数反馈能带来4-6×\\times倍的更快收敛速度和显著更高的最终性能，并且多任务搜索的收益随相关任务数量增加而扩展。 ## 2\.相关工作 #### 基于LLM的程序进化。 AlphaEvolve\(Novikov et al.,2025 (https://arxiv.org/html/2605.19633#bib.bib19)\)开创了LLM进化范式，使用Gemini模型与基于岛屿的MAP-Elites\(Mouret and Clune,2015 (https://arxiv.org/html/2605.19633#bib.bib18)\)来为谷歌基础设施发现算法。OpenEvolve\(Sharma,2025 (https://arxiv.org/html/2605.19633#bib.bib25)\)提供了一个开源重新实现，支持模型无关。ShinkaEvolve\(Lange et al.,2025 (https://arxiv.org/html/2605.19633#bib.bib14)\)通过基于新奇度的拒绝抽样提高样本效率，以及自适应LLM集成选择增强多样性，扩展了该范式。FunSearch\(Romera-Paredes et al.,2024 (https://arxiv.org/html/2605.19633#bib.bib23)\)将进化LLM搜索应用于数学发现。EvoPrompting\(Chen et al.,2023 (https://arxiv.org/html/2605.19633#bib.bib6)\)为神经架构搜索进化代码。所有这些都是仅在单任务模式下操作，并暴露框架特定的抽象（岛屿拓扑、提示采样器、进化块标记）。optimize\_anything将接口简化为声明式本质，添加多任务和泛化模式，并将诊断反馈提升为一等API概念。 #### 提示优化。 GEPA\(Agrawal et al.,2026b (https://arxiv.org/html/2605.19633#bib.bib4)\)将反射突变与基于Pareto的搜索技术结合用于提示优化，优于MIPROv2\(Opsahl-Ong et al.,2024 (https://arxiv.org/html/2605.19633#bib.bib20)\)和GRPO\(Shao et al.,2024 (https://arxiv.org/html/2605.19633#bib.bib24)\)。optimize\_anything支持GEPA的进化搜索算法作为优化后端之一，将其扩展到提示之外的任意文本工件。其他提示优化方法包括OPRO\(Yang et al.,2024 (https://arxiv.org/html/2605.19633#bib.bib28)\)、APE\(Zhou et al.,2023 (https://arxiv.org/html/2605.19633#bib.bib31)\)、ProTeGi\(Pryzant et al.,2023 (https://arxiv.org/html/2605.19633#bib.bib22)\)和PromptBreeder\(Fernando et al.,2023 (https://arxiv.org/html/2605.19633#bib.bib9)\)。TextGrad\(Yuksekgonul et al.,2024 (https://arxiv.org/html/2605.19633#bib.bib29)\)使用LLM生成的“梯度”进行文本优化。 #### LLM自我改进与反思。 Reflexion\(Shinn et al.,2023 (https://arxiv.org/html/2605.19633#bib.bib26)\)使用口头强化进行智能体自我纠正。Self-Refine\(Madaan et al.,2023 (https://arxiv.org/html/2605.19633#bib.bib16)\)应用迭代自我反馈。通过大模型的进化\(Lehman et al.,2022 (https://arxiv.org/html/2605.19633#bib.bib15)\)探索LLM作为突变算子。optimize\_anything的SI机制通过将诊断反馈变为声明式评估器契约而非硬编码的自我批评，将这些思想泛化。 #### 智能体架构搜索。 ADAS\(Hu et al.,2024 (https://arxiv.org/html/2605.19633#bib.bib12)\)和AFlow\(Zhang et al.,2025 (https://arxiv.org/html/2605.19633#bib.bib30)\)搜索智能体架构。optimize\_anything的泛化模式将这些作为特例包含：工件是智能体代码，评估器在任务上运行它，系统联合进化架构和提示。 ## 3\.optimize\_anythingAPI ### 3\.1\.核心接口 在最简单的情况下，optimize\_anything需要一个种子工件和一个评估器。评估器接受一个候选字符串并返回一个分数（越高越好），以及一个可选的侧面信息（SI）字典，其中包含提议者在反思期间读取的诊断反馈： importoptimize\_anythingasoa defevaluate\(candidate:str\)\-\>tuple\[float,dict\]: result=execute\_code\(candidate\) returnresult\.score,\{ "Error":result\.stderr, "Output":result\.stdout, "Runtime":f"\{result\.time\_ms:\.1f\}ms", \} result=oa\.optimize\_anything\( seed\_candidate="", evaluator=evaluate, \) SI可以包含开放式文本、结构化数据、多个子分数或图像（通过oa\.Image）供视觉能力LLM（VLM）使用。完整的optimize\_anything签名

optimize_anything：用于优化任意文本参数的通用API

相似文章

TROPT：一个统一和推进离散文本优化的开放框架

OmniOpt：现代优化器的分类体系、几何特性与基准测试

文本作为严肃的优化层（8分钟阅读）

@yoonholeee: https://x.com/yoonholeee/status/2064027464926716154

AccelOpt：一种用于AI加速器内核优化的自我改进LLM智能体系统

提交意见反馈