appworld

#appworld

并非所有技能都有帮助：衡量与修复智能体知识

arXiv cs.CL ↗ · 昨天缓存

本文指出，在LLM智能体中简单积累技能可能导致性能倒退，因为对某些任务有益的技能反而会损害其他任务。作者提出Assay框架，该框架衡量每个技能的因果贡献，并对每个任务进行掩码处理，在不更新权重的情况下，在AppWorld和τ-bench上取得了最先进的结果。

0 人收藏 0 人点赞

#appworld

arXiv cs.AI ↗ · 2026-05-12 缓存

MIND-Skill 是本研究论文提出的一种新框架，它利用基于 TextGrad 优化的多智能体归纳和演绎，自动化生成高质量、可复用的智能体技能，并提供质量保证。

0 人收藏 0 人点赞

#appworld

arXiv cs.AI ↗ · 2026-05-11 缓存

本文介绍了 HCL-GP，这是一种动态策略学习框架，将广义规划与分层任务分解相结合，使基于大语言模型（LLM）的智能体能够学习和复用可执行的策略组件，从而在 AppWorld 基准测试上显著提升性能。

0 人收藏 0 人点赞