标签
介绍Apodex,一个自进化型重型求解器,采用verification-centric agent team架构进行深度研究,支持自我求解、证据链验证等功能,目前处于抢先体验阶段且完全免费。
该推文讨论了将个人工作流程(包括拆解方式、验证规则、输出格式等)打包成可复用Skill的理念,认为这种自我进化的Compounding Loop符合控制论原则,是长期关键能力。
Apodex 1.0 是一个基于 Qwen3.5 后训练的自我进化 AI 系统,在 BrowseComp、DeepSearchQA 和 HLE-text 上达到 SOTA。其 4B 迷你模型性能超越 30B 级别模型,并配有 AgentOS 运行时用于任务编排。开放权重可用。
HarnessX introduces a framework for self-evolving AI agent harnesses that treats the runtime harness as a first-class object, enabling automatic adaptation via trace-driven reinforcement learning. It achieves average gains of +14.5% across five benchmarks, with larger improvements for weaker models.
微软推出SkillOpt,一种将智能体技能文档像神经网络一样训练的方法,通过epoch、batch、学习率和验证集来进行优化,但不修改模型权重。在多项基准测试中取得最佳结果,可跨模型和工具迁移。
TabClaw 是一个开源的交互式 AI 智能体,用于电子表格操作和表格推理,利用 LLM 自动化数据分析,支持多表格推理,并通过记忆和技能提取适应个人偏好。
Memento-Skills 是一个自我进化的智能体框架,智能体从失败中学习并重写自己的技能,通过“读取-执行-反思-写入”循环不断改进。该框架在 HLE 和 GAIA 基准测试上进行了测试,并支持 Kimi、MiniMax、GLM 等开源大语言模型。
本文介绍了SkeMex,一个自我演进的框架,通过将交互轨迹提炼为结构化技能记忆来增强医学智能体,并利用上下文相关的效用估计与治理实现更好的长期临床推理。
Skill-3D是一个框架,通过自我进化的记忆与技能库使AI智能体学习场景感知技能,在3D空间推理任务中显著提升工具使用能力(例如,在VSI-Bench上从39%提升至78%)。
SePO(自进化提示优化)提出了一种自指涉提示智能体,通过进化搜索同时优化任务智能体的系统提示和自身的系统提示。在包括 AIME'25、ARC-AGI-1 和 GPQA 在内的五个基准测试中,SePO 的表现优于 Manual-CoT、TextGrad 和 MetaSPO。
Parthenon 是一个自进化的法律智能体框架,将 LLM 智能体组织为六个可审计层,并通过防数据泄漏的学习循环机制,在不修改模型权重的前提下提升端到端法律事务处理性能。基于 Harvey LAB 的大规模实证研究涵盖 12,510 条智能体轨迹,结果表明当前前沿智能体在严格事务完成度方面仍面临较大挑战,而 Parthenon 相比现有最优基线方法取得了显著提升。
MLEvolve是一个基于LLM的自我进化多智能体框架,用于自动化机器学习算法发现。它将树搜索扩展为Progressive MCGS,并引入基于图的跨分支信息流和Retrospective Memory。该框架在MLE-Bench上取得了最先进的性能,并在数学算法优化任务上优于AlphaEvolve。
介绍了SkillDAG,一种用于大规模LLM技能选择的自进化类型化有向图,它建模了技能间关系,并允许智能体在执行过程中查询和演化该图,在ALFWorld和SkillsBench上优于基线。
本文提出Traj-Evolve,一个自我进化的多智能体系统,它利用经验池和多智能体强化学习,从纵向电子健康记录中对患者轨迹进行建模,用于肺癌早期检测,性能优于强基线模型。
该帖子讨论了一篇论文,指出Agent系统自我进化中,更新Harness(写有用更新)与从更新中受益(后续任务真正使用)是两种不同能力,后者才是关键,弱模型往往不会使用规则。
EvoDS 是一款自演化自主数据科学智能体,通过强化学习驱动的技能获取与自适应上下文压缩进行改进,在基准测试上超越开源智能体 28.9%。
本文介绍了GrowLoop,一个用于评估开放式对话中人类相似度的自我进化评估系统。它利用最少的人类种子标注,迭代优化评估标准,解决了隐性知识、人类意见分歧和模型能力进化等挑战。
本文介绍了CUDAnalyst,一种用于分析在CUDA内核生成中自进化LLM代理的各个反馈信号如何影响规划决策的工具,通过轨迹冻结和选择性反馈注入实现可控归因。
SkillOpt introduces a systematic controllable text-space optimizer that enables AI agents to train and improve their own skills (like 'work instructions') through iterative edits and validation, outperforming human-crafted and one-shot prompts across multiple benchmarks and models.
微软研究院推出了SkillOpt,该方法将智能体技能文档视为可训练的外部状态,利用优化器模型进行受限编辑,并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果,在GPT-5.5上准确率提升超过23个百分点,且零额外推理成本,技能可迁移。