技能的递归自我改进 (Skill RSI)

Reddit r/AI_Agents 工具

摘要

Skill RSI 是一个免费工具,通过程序化评估和研究代理,以递归方式评估和改进 AI 技能,支持独立使用或作为 Codex 插件使用。

基于今年早些时候的一个名为 SkillEval(对一个技能版本与另一个版本进行程序化严格评估)的早期项目,我构建了 Skill RSI。它是免费的,并且可以在循环中进行这些评估,由一个研究代理智能地决定下一步尝试什么。也许我有偏见,但我认为它相当不错。你可以独立运行它,也可以作为 Codex 插件使用(仓库顶部有一行可复制粘贴的代码,你可以给 Codex,它会为你设置好一切!相当酷)。你可以设定迭代次数,按计划使用,或通过钩子使用。例如,你可以将一个技能文件放入 Codex,@skill RSI,然后说“改进这个技能”。它进行消融实验,因此变化是聚焦且严格的。它是免费的,只消耗 API token,目前原生仅支持 OAI(如果有人想为仓库做贡献并添加 Claude 版本或其他版本,请随意)。告诉我你的想法,如果不介意的话请给仓库打个星!链接在评论中。
查看原文

相似文章

SkillOpt:自我进化智能体技能的执行策略

Hugging Face Daily Papers

SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。

Skill Inspector

Product Hunt

Skill Inspector 是一款开发者工具,可审计 AI 代理技能,帮助防范恶意软件风险。

SkillEvolBench:从情景经验到程序技能的进化基准测试

Hugging Face Daily Papers

SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。