@hanakoxbt: 麻省理工学院团队刚刚发布了一份24页的PDF,关于Claude Code代理的"自我进化技能"。Anthropic自己的技能创造者…
摘要
MIT团队发布了一篇关于Claude Code代理自我进化技能的论文,通过生成-测试-验证-协同进化框架,实现了71.1%的通过率,比Anthropic的技能创造者高出37个百分点。
查看缓存全文
缓存时间: 2026/06/26 08:07
一个 MIT 团队刚刚发布了一份 24 页的 PDF,主题是 Claude Code 智能体的「自我进化技能」。
Anthropic 自家的技能生成器通过率仅为 34%。而这个框架达到了 71%。
生成 → 测试 → 验证 → 共同进化
生成:每次任务失败后,智能体针对出问题的环节撰写一条候选技能。
测试:在同一个冻结的 Claude 模型上,对留出集运行新技能。
验证:如果得分高于当前最优,则晋升该技能;否则拒绝并记录失败。
共同进化:第二个智能体从被拒绝的尝试中学习,并与生成器同步进化,使循环不断改进。
结果:在 Claude Opus 4.6 上达到 71.1% 的通过率,比 Anthropic 自家技能生成器高出 37 个百分点,涵盖 SkillsBench 和 Codex 基准。
这正是工程师们不再手动编写技能,而是让智能体自行进化的原因。
阅读论文后,即可获取下方配置。
相似文章
SkillFlow:自主智能体终身技能发现与演化基准测试
SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。
@mylifcc: Anthropic 6月3日发布重磅博客《Lessons from building Claude Code: How we use skills》,总结了一下a社对于skill的理解: Skills 到底是什么?(核心概念澄清) 不是:…
Anthropic发布博客解释Claude Code中Skills的概念:Skills是一个包含指令、脚本、参考资料等内容的文件夹,Agent可渐进式披露上下文以减少幻觉和token浪费。
@sheriyuo: 今年所有关于“自我进化智能体”的论文都在对文本进行突变:提示词、技能文件、工作流图、记忆模式。MO…
MOSS 为自我进化智能体引入了源代码级重写,能够修复文本层进化无法触及的结构性故障。在 OpenClaw 上,它仅通过一个周期就将四项任务的评分均值从 0.25 提升至 0.61,且无需人工干预。
mattpocock/skills
该开源仓库提供了一套可组合的 AI 代理技能与提示词,专为 Claude Code 和 Codex 等编程助手打造,旨在提升模型对齐效果、减少冗长输出,并优化整体工作流。
@Huanusa: Anthropic 官方放出了一份很值得收藏的资料: 《The Complete Guide to Building Skills for Claude》 整整 33 页 PDF。 这不是入门科普, 而是一份 Claude Skill 开…
Anthropic 发布了一份 33 页的 PDF 指南《The Complete Guide to Building Skills for Claude》,详细介绍了如何设计、组织、优化和复用 Claude 的 Skill,适用于 Claude Code 用户和 AI Agent 开发者。