面向自进化LLM代理在CUDA内核生成中的反馈到计划决策

arXiv cs.AI 2026/05/27 04:00 论文

cuda-kernel-generation llm-agents feedback-planning attribution self-evolving analysis-tool

摘要

本文介绍了CUDAnalyst，一种用于分析在CUDA内核生成中自进化LLM代理的各个反馈信号如何影响规划决策的工具，通过轨迹冻结和选择性反馈注入实现可控归因。

arXiv:2605.26720v1 公告类型：新摘要：大型语言模型（LLM）作为自进化代理在CUDA内核生成中展现出显著的实证提升，这得益于跨代际的反馈条件规划。然而，规划决策如何归因并组合异构反馈信号仍不透明。标准的端到端消融研究无法解决这一问题，因为迭代规划会放大早期扰动，并将反馈效应与轨迹依赖的漂移混淆。我们引入了\texttt{CUDAnalyst}，一个统一的分析层，通过轨迹冻结和选择性反馈注入，实现对规划决策在生成层面的受控归因。\texttt{CUDAnalyst}支持稳定的生成层面评估，以及基于原则的联盟式反馈效应与交互归因。我们的结果表明：仅在反馈对齐时显式规划才有效；有效的规划源于结构化的多反馈交互；较强推理模型的高级规划可以部分迁移到较弱模型。这些趋势在参考骨干网络、代表性工作负载和参考归纳机制下均成立，表明所识别的反馈到规划结构在所研究的受控轴上是稳健的。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:07

# 面向自演化LLM智能体在CUDA内核生成中的反馈到规划决策 来源: https://arxiv.org/html/2605.26720 ###### 摘要 大语言模型作为自演化智能体在CUDA内核生成领域展现出显著的实证效果，其通过跨代际的反馈条件化规划驱动程序迭代改进。然而，规划决策如何归因并整合异构反馈信号仍不透明。标准端到端消融无法解决这一问题，因为迭代规划会放大早期扰动，并将反馈效应与轨迹依赖漂移混杂在一起。我们提出**CUDAnalyst**，一个统一分析层，通过轨迹冻结和选择性反馈注入，实现对规划决策在生成级别上的受控归因。CUDAnalyst支持稳定的生成级评估，以及基于联盟的反馈效应和交互的原则性归因。我们的结果表明：显式规划仅在反馈对齐时有益；有效的规划源于结构化的多反馈交互；来自更强推理模型的高级规划可部分迁移到较弱模型。这些趋势在参考骨干网络、代表性工作负载和参考归纳机制下保持一致，表明所识别的反馈到规划结构在所研究的受控轴上是稳健的。代码：https://github.com/yuxuan-z19/cudanalyst 反馈条件化规划、生成级归因、自演化LLM智能体、CUDA内核生成 ## 1 引言 大语言模型越来越多地被部署为用于CUDA内核生成的*自演化智能体*，其中程序通过跨代际的反馈驱动规划进行迭代精炼（Zhang等，2026b；Wei等，2025；Kong等，2026）。在这些系统中，规划作为一个显式决策函数，将异构诊断反馈——从静态分析到运行时度量——转化为具体的代码修改计划。尽管实证成功日益增多，但**个体反馈组件如何在生成级别上塑造反馈到规划决策**仍知之甚少。缺乏效用感知的分析，实践者通常不加区分地聚合诊断信息，掩盖了哪些反馈组件有意义地影响了当前的规划决策，进而妨碍了原则性的智能体设计。 参见图注 图1：端到端消融与冻结轨迹上的干预比较。E2E遭受轨迹漂移，因此无法呈现精确的因果归因。 现有大多数评估依赖*端到端消融*，即在修改反馈组件后重新启动演化过程（从头开始或从检查点），并仅报告结果（Novikov等，2025；Zhang等，2026a；Liu等，2024b）。这种协议对于自演化LLM智能体并不适用：迭代规划放大了早期扰动，使得反馈效应与轨迹特定漂移无法分离（图1）。此外，将非单调的生成级结果聚合为单个标量，掩盖了特定反馈信号何时重要以及它们如何交互。因此，**端到端消融将反馈效应与轨迹依赖漂移相混淆**，限制了其对分析反馈到规划决策的有用性。 为解决这一局限性，我们引入**CUDAnalyst**，一个统一分析层，基于一个简单洞见：*反馈归因必须在固定代际上进行，以避免跨代漂移的混淆*。通过冻结中间程序状态再进行规划，CUDAnalyst支持对反馈信号的受控干预，并支持对其贡献和交互进行基于联盟的原则性归因。利用这些能力，我们系统地评估了反馈组件如何塑造规划决策，并揭示了四个主要发现，这些发现在生成骨干网络、代表性工作负载和参考归纳机制下保持一致： 1. 显式规划仅在基于反馈时才有效，反馈对齐的规划能带来稳定的生成级改进。 2. 规划有效性源于多个反馈组件之间的交互，反映了对联合反馈可用性的稳定依赖。 3. 反馈摘要有助于但不取代显式规划，尤其有利于较弱模型。 4. 来自较强模型生成的规划可以部分迁移到同一模型家族内的较弱模型。 ## 2 相关工作 最近关于LLM驱动的CUDA内核生成的工作越来越多地采用**自演化智能体**框架，用由反馈到规划循环引导的迭代精炼取代一次性合成（Li等，2025a；Dong等，2026；Tschand等，2025）。这些智能体将异构反馈（如调试信息、静态分析和运行时测量）以及检索到的参考信息纳入规划上下文中，以推动连续的内核修订并获得显著的性能提升。附录A中提供了代表性方法的简要总结。虽然自演化智能体在不同领域有所差异，CUDA内核生成主要依赖反馈驱动的演化框架，因为存在离线编译和执行约束；我们的研究聚焦于这一设定。 尽管自演化智能体在CUDA内核生成方面取得了近期进展，大多数评估仍专注于结果级指标，如最终性能或聚合成功率。这些指标对每个代际反馈如何指导规划提供的洞察有限，**无法区分单个反馈信号的贡献或交互**，而随机发散和耦合的轨迹进一步混淆了因果效应。 ## 3 CUDAnalyst设计与评估 为了分析反馈如何在自演化智能体中指导规划，我们引入**CUDAnalyst**，一个统一的*分析层*，将反馈与规划解耦，并支持受控的生成级干预。通过冻结程序状态并选择性操纵反馈输入，CUDAnalyst收集生成级统计信息，并应用基于联盟的归因来量化反馈组件的边际贡献和交互。这种设计使得在内核演化过程中能够进行可解释的、基于干预的反馈到规划决策分析。 参见图注 图2：CUDAnalyst概述。结构化反馈报告作为规划的唯一输入，使得在固定代际上能够对反馈到规划决策进行受控干预和归因。 ### 3.1 反馈到规划分析层 如图2所示，CUDAnalyst将反馈处理与规划分离，同时对周围的自演化智能体框架保持无关。标准分析工具的输出被规范化为结构化的表示，直接由规划器消费。参考程序代码被视为固定先验，位于归因边界之外；规划决策仅基于当前程序状态衍生的反馈进行条件化。该流水线包含三个分析模块：**调试器**、**分析器**和**性能分析器**，每个模块产生结构化的**概要文件**。这些概要文件可以由**摘要智能体**聚合为更高级别的**摘要**，共同构成统一的**报告**。一个专门的**规划智能体**消费此报告并输出一个高级**规划**。这种显式分离揭示了一个清晰的证据-决策边界，并支持对反馈输入进行受控干预。摘要智能体和规划智能体均基于LLM，并在所有代际和干预中使用固定的提示和解码配置。所有组件（包括各个反馈源）都可以选择性地启用或禁用，以支持细粒度的归因。 ### 3.2 生成级反馈干预 端到端消融对于自演化智能体并不可靠，因为演化过程早期引入的扰动会通过迭代规划传播并混淆归因。为了在固定决策点隔离反馈对规划的影响，我们采用**生成级反馈干预**协议。具体而言，我们在选定的代际冻结程序状态，将当前规划决策与历史演化轨迹解耦（Ou等，2025；Chan等，2024；Desmond等，2025）。参考信息是原始程序上下文的固有部分，在每个代际被冻结，缓存的参考信息在所有反馈干预中重复使用。这确保了所有干预共享相同的程序上下文，并且归因不受参考重采样的混淆。在每个冻结检查点，我们通过选择性保留或注入特定反馈组件（Bush等，2025）对规划上下文执行受控的修补干预（Zhang and Nanda，2024），同时保持规划器、提示、解码配置和评估流水线固定。因此，规划结果的差异可以完全归因于反馈上下文的变化。该协议避免了跨代干扰，并消除了完全重新执行轨迹的需要，使得能够在固定代际上对反馈效应进行条件归因。实现细节见附录D.2，计算预算和样本效率的详细分析见附录D.3。 ### 3.3 评估指标 我们报告在每个代际之后立即计算的**生成级统计信息**。对于固定代际 \( g \)，冻结的程序样本使用相同的LLM、相同的评估流水线和固定数量的代码生成重试次数进行评估，这些设置在所有样本和代际中保持不变。执行级结果遵循 Ouyang 等人（2025）的标准： - • **编译成功**：产生可运行的可执行文件； - • **通过**：满足所有功能验证； - • **快速**：优于基线实现。 每个执行被分配满足的最高标准，失败标记为**失败**。这些标准在执行上诱导出一个偏序。如果至少一次执行满足某个标准，则认为样本成功。生成级统计信息通过聚合在固定执行预算下的样本级指标计算得出，类似于 pass@k（Chen等，2021），同时保持代际作为归因单位。 ### 3.4 通过基于联盟的归因进行组件归因 受基于交互的LLM分析（Qin等，2026）的启发，我们将反馈归因形式化为一个合作博弈 \(\mathcal{G} = (N, v)\)（Shapley, 1952），其中每个玩家对应一个反馈上下文组件。特征函数 \(v: 2^N \rightarrow \mathbb{R}\) 将组件子集映射到预期的生成级性能，通过固定提示和解码配置下的重复展开估计（Yang等，2025；Liu等，2024c）。该公式允许我们将规划结果归因于单个反馈组件及其交互。 我们使用基于Banzhaf值的联盟归因来量化边际贡献 \(\phi_i\)（Banzhaf III, 1964）： \[ \phi_i(v) = \frac{1}{2^{|N|-1}} \sum_{S \subseteq N \setminus \{i\}} \bigl[ v(S \cup \{i\}) - v(S) \bigr], \tag{1} \] 根据定义，\(\phi_i(v)\) 对所有子集（联盟）的反馈组件进行平均，忽略顺序。在我们的设定中，当形成规划决策时，所有启用的反馈组件同时出现并在输入中平等对待，这促使使用Banzhaf值而非Shapley值。基线 \(v(\emptyset)\) 对应于当前研究问题中考虑的反馈组件都不存在的联盟。 为了表征非加性依赖，我们计算成对交互项（Grabisch and Roubens, 1999）： \[ \sigma_{ij} = v(\{i,j\}) - v(\{i\}) - v(\{j\}) + v(\emptyset), \tag{2} \] 其中 \(\sigma_{ij} > 0\) 表示互补性，\(\sigma_{ij} < 0\) 表示冗余或竞争。\(\phi_i\) 和 \(\sigma_{ij}\) 共同提供了基于干预的细粒度归因，说明在内核演化过程中单个反馈组件及其交互如何影响规划结果。 ## 4 实证研究 我们进行了一项实证研究，以检验反馈条件化规划如何影响自演化LLM智能体中的生成级决策结果，同时明确将这些效应与轨迹依赖漂移或策略适应隔离开来。我们采用**轨迹冻结**评估协议：在每个代际，演化过程产生的所有程序样本被冻结并独立地重新评估，在受控反馈配置下，而不重新运行演化过程。该协议允许将结果差异受控地归因于在固定代际上应用的反馈干预，而非规划策略的学习或适应（附录B.1）。在此协议下，我们研究了表1中总结的四个研究问题：显式规划何时有益（RQ0）、异构工具反馈如何贡献于规划结果（RQ1）、摘要是否中介了反馈复杂性（RQ2），以及由强模型生成的规划是否能指导弱模型（RQ3）。在所有实验中，我们报告在整个PolyBench-ACC套件（Grauer-Gray等，2012）上聚合的生成级成功率，包含10次独立运行，为跨研究问题比较提供一致的基础；图中阴影区域表示这些运行的95%置信区间。每个RQ的快速率和通过率变化的详细分解见相应附录。 表1：实证研究中的研究问题 | RQ | 目标 | 描述 |
|---|---|---|
| RQ0 (4.1) | 规划 | 验证在不同反馈条件下显式规划何时有益。 |
| RQ1 (4.2) | 工具反馈 | 测量每个工具反馈对规划决策的贡献。 |
| RQ2 (4.3) | 工具摘要 | 评估摘要是否改进... |

面向自进化LLM代理在CUDA内核生成中的反馈到计划决策

相似文章

从人工引导到自主：面向空间NPU的端到端LLM部署的智能体技能系统

AdaExplore：基于失败驱动的自适应与多样性保留搜索的高效内核生成

面向异构大语言模型多智能体系统的迭代式批评与路由控制器

对于让AI代理发挥作用，反馈系统比模型更重要吗？

基于有限元分析反馈的自我改进CAD生成代理

提交意见反馈