更新:小模型程序性技能迁移测试的首批人工结果
摘要
本文报告了在小AI模型上测试程序性技能迁移实验的首批人工结果,提供了关于技能如何在模型间迁移的见解。
暂无内容
相似文章
从原始经验到技能消费:模型生成智能体技能的系统研究
本文系统评估了语言智能体的模型生成技能,涵盖经验生成、提取和消耗的完整生命周期,发现技能平均有益但存在显著的负迁移,从而引出一种提高技能质量的元技能。
一种无需微调测试小模型技能迁移的盲视范式
提出一种使用Three.js的盲视觉范式,用于测试从大模型提取的过程性脚手架能否在无需微调的情况下提升小模型输出,并由盲评模型验证。
SkillEvolBench:从情景经验到程序技能的进化基准测试
SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。
@omarsar0: 微软研究院的新研究 我看到很多AI工程师手写智能体技能文档,并希望它们能泛化。…
微软研究院推出了SkillOpt,该方法将智能体技能文档视为可训练的外部状态,利用优化器模型进行受限编辑,并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果,在GPT-5.5上准确率提升超过23个百分点,且零额外推理成本,技能可迁移。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387
本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。