@Zhongyi_Zhou_: ML通过数学梯度优化;循环工程需要文本“梯度”!介绍ToolGrad:一个智能体框架…
摘要
介绍ToolGrad,一个智能体框架,通过文本‘梯度’生成、评估和优化工具使用轨迹,达到近乎100%的通过率,降低数据集生成成本。已被ACL 2026接收。
查看缓存全文
缓存时间: 2026/06/17 20:03
ML通过数学梯度进行优化;循环工程需要文本“梯度“!
隆重推出 ToolGrad:一个智能体框架,能够持续生成、评估和优化工具使用轨迹,并利用文本“梯度“。 #ACL2026
🧵👉 https://t.co/NchvosrTr0 https://t.co/qm5wHXZJml
利用文本“梯度“高效生成工具使用数据集
来源:https://zhongyi-zhou.github.io/toolgrad/ 1Google2东京大学3RIKEN AIP4东北大学
ACL 2026 Findings
ToolGrad 预告图
ToolGrad 颠覆了工具使用数据生成流程。我们采用“答案优先“的工具使用数据生成框架,实现了接近100%的通过率和更低成本。
ToolGrad
与 ML 和 TextGrad 的类比
与 ML 和 TextGrad 的类比
智能体框架设计
智能体框架设计
BibTeX
@article{zhou2025toolgrad, title={ToolGrad: Efficient Tool-use Dataset Generation with Textual “Gradients”}, author={Zhongyi Zhou and Kohei Uehara and Haoyu Zhang and Jingtao Zhou and Lin Gu and Ruofei Du and Zheng Xu and Tatsuya Harada}, year={2025}, archivePrefix={arXiv}, }
相似文章
@yoonholeee: https://x.com/yoonholeee/status/2064027464926716154
作者认为,文本优化(提示、上下文、记忆)是一种合理且样本高效的学习机制,机器学习社区应更认真地对待它,从而开启一个更新时计算的新扩展维度。
@Yif_Yang: 介绍 SkillOpt — 一个面向智能体技能的优化器。不再微调模型权重,而是将自然语言…
介绍 SkillOpt,一个将自然语言技能视为可训练外部参数而非微调模型权重的优化器。它通过有界编辑和验证门控实现稳定、可控的技能更新,在 7 个模型的 6 个基准测试的 52 个设置中取得最佳或并列最佳结果。
通过隐式梯度传输加速基于 LMO 的优化
本文提出了 LMO-IGT,这是一类新的随机优化方法,它利用隐式梯度传输来加速收敛,同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架,并展示了相较于 Muon 等现有基于 LMO 的优化器,该方法具有更优的性能。
@LakshyAAAgrawal: 从丰富的文本反馈(错误、轨迹、部分推理)中学习,对于LLM优化来说,优于仅使用标量奖励。…
快速-慢速训练(FST)将上下文优化(通过GEPA)与通过强化学习进行的模型权重更新交替进行,在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率,同时保持了可塑性并实现了持续学习。
基于稀疏查询特征梯度优化的导向生成
本文介绍了Prototype-Based Sparse Steering方法,该方法将稀疏自编码器应用于大语言模型的注意力查询激活,然后在推理过程中使用梯度优化来引导生成朝向目标行为。该方法在一个逻辑规划任务和一个风格化教育领域中得到了验证,展示了可解释且解耦的控制能力。