deepseek-v3

标签

Cards List
#deepseek-v3

并非所有技能都有帮助:衡量与修复智能体知识

arXiv cs.CL · 昨天 缓存

本文指出,在LLM智能体中简单积累技能可能导致性能倒退,因为对某些任务有益的技能反而会损害其他任务。作者提出Assay框架,该框架衡量每个技能的因果贡献,并对每个任务进行掩码处理,在不更新权重的情况下,在AppWorld和τ-bench上取得了最先进的结果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈