@hanakoxbt: 麻省理工学院团队刚刚发布了一份24页的PDF,关于Claude Code代理的"自我进化技能"。Anthropic自己的技能创造者…

X AI KOLs Timeline 论文

摘要

MIT团队发布了一篇关于Claude Code代理自我进化技能的论文,通过生成-测试-验证-协同进化框架,实现了71.1%的通过率,比Anthropic的技能创造者高出37个百分点。

麻省理工学院团队刚刚发布了一份24页的PDF,关于Claude Code代理的"自我进化技能"。 Anthropic自己的技能创造者通过率为34%,而该框架达到71%。 Generate → Test → Verify → Co-Evolve > Generate: 每次任务失败后,代理会为刚刚出现的问题编写一个候选技能。 > Test: 新技能在一个保留数据集上运行,使用相同的冻结Claude模型。 > Verify: 如果得分高于当前最佳,则被晋升;否则被拒绝,并记录失败。 > Co-Evolve: 第二个代理从被拒绝的尝试中学习,并与生成器共同进化,从而循环不断改进。 结果:在Claude Opus 4.6上实现了71.1%的通过率,在SkillsBench和Codex上比Anthropic自己的技能创造者高出37个百分点。 这正是工程师们不再手动编写技能,而是让代理自我进化的原因。 阅读论文,然后获取以下设置。
查看原文
查看缓存全文

缓存时间: 2026/06/26 08:07

一个 MIT 团队刚刚发布了一份 24 页的 PDF,主题是 Claude Code 智能体的「自我进化技能」。

Anthropic 自家的技能生成器通过率仅为 34%。而这个框架达到了 71%。

生成 → 测试 → 验证 → 共同进化

生成:每次任务失败后,智能体针对出问题的环节撰写一条候选技能。

测试:在同一个冻结的 Claude 模型上,对留出集运行新技能。

验证:如果得分高于当前最优,则晋升该技能;否则拒绝并记录失败。

共同进化:第二个智能体从被拒绝的尝试中学习,并与生成器同步进化,使循环不断改进。

结果:在 Claude Opus 4.6 上达到 71.1% 的通过率,比 Anthropic 自家技能生成器高出 37 个百分点,涵盖 SkillsBench 和 Codex 基准。

这正是工程师们不再手动编写技能,而是让智能体自行进化的原因。

阅读论文后,即可获取下方配置。

相似文章

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。

mattpocock/skills

GitHub Trending (daily)

该开源仓库提供了一套可组合的 AI 代理技能与提示词,专为 Claude Code 和 Codex 等编程助手打造,旨在提升模型对齐效果、减少冗长输出,并优化整体工作流。