标签
本文指出,在LLM智能体中简单积累技能可能导致性能倒退,因为对某些任务有益的技能反而会损害其他任务。作者提出Assay框架,该框架衡量每个技能的因果贡献,并对每个任务进行掩码处理,在不更新权重的情况下,在AppWorld和τ-bench上取得了最先进的结果。
本文介绍了一项实验,要求 GPT-4.1 在 1 到 100 之间随机选择一个数字,重复 10,000 次,然后分析结果分布与均匀基线相比是否存在偏差。