deepseek-v3

#deepseek-v3

并非所有技能都有帮助：衡量与修复智能体知识

arXiv cs.CL ↗ · 昨天缓存

本文指出，在LLM智能体中简单积累技能可能导致性能倒退，因为对某些任务有益的技能反而会损害其他任务。作者提出Assay框架，该框架衡量每个技能的因果贡献，并对每个任务进行掩码处理，在不更新权重的情况下，在AppWorld和τ-bench上取得了最先进的结果。

0 人收藏 0 人点赞