gpt-4.1

#gpt-4.1

并非所有技能都有帮助：衡量与修复智能体知识

arXiv cs.CL ↗ · 昨天缓存

本文指出，在LLM智能体中简单积累技能可能导致性能倒退，因为对某些任务有益的技能反而会损害其他任务。作者提出Assay框架，该框架衡量每个技能的因果贡献，并对每个任务进行掩码处理，在不更新权重的情况下，在AppWorld和τ-bench上取得了最先进的结果。

0 人收藏 0 人点赞

#gpt-4.1

Hacker News Top ↗ · 2026-05-25 缓存

本文介绍了一项实验，要求 GPT-4.1 在 1 到 100 之间随机选择一个数字，重复 10,000 次，然后分析结果分布与均匀基线相比是否存在偏差。

0 人收藏 0 人点赞