self-evolving

#self-evolving

@TowardMu: https://x.com/TowardMu/status/2069194694228431273

X AI KOLs Timeline ↗ · 2天前缓存

介绍Apodex，一个自进化型重型求解器，采用verification-centric agent team架构进行深度研究，支持自我求解、证据链验证等功能，目前处于抢先体验阶段且完全免费。

0 人收藏 0 人点赞

#self-evolving

@Phoenixyin13: 不是暴论，这套自我进化的 Compounding Loop 才是长期杀手级。现在，根据这篇文章，每个人要习惯让自己的整个流程，包括拆解方式、验证规则、输出格式、你的偏好打包成一个可复用的Skill。这将是来自未来的能力。下次遇到类似任…

X AI KOLs Timeline ↗ · 6天前缓存

该推文讨论了将个人工作流程（包括拆解方式、验证规则、输出格式等）打包成可复用Skill的理念，认为这种自我进化的Compounding Loop符合控制论原则，是长期关键能力。

0 人收藏 0 人点赞

#self-evolving

@heyshrutimishra: Apodex 1.0 发布，架构确实与众不同。它基于 Qwen3.5 进行后训练，成为一个自我进化的系统：…

X AI KOLs Following ↗ · 2026-06-17 缓存

Apodex 1.0 是一个基于 Qwen3.5 后训练的自我进化 AI 系统，在 BrowseComp、DeepSearchQA 和 HLE-text 上达到 SOTA。其 4B 迷你模型性能超越 30B 级别模型，并配有 AgentOS 运行时用于任务编排。开放权重可用。

0 人收藏 0 人点赞

#self-evolving

@NFTCPS: HarnessX这玩意儿挺有意思：一个能自己改自己的智能体架构。以前架构怎么变，全靠人手调。新模型一出，Anthropic就把Claude Code里的规划步骤砍了，Manus半年重构了五次智能体，每次都在做减法。改什么、什么时候改，一…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

HarnessX introduces a framework for self-evolving AI agent harnesses that treats the runtime harness as a first-class object, enabling automatic adaptation via trace-driven reinforcement learning. It achieves average gains of +14.5% across five benchmarks, with larger improvements for weaker models.

0 人收藏 0 人点赞

#self-evolving

@NFTCPS: 微软搞了个东西叫 SkillOpt，思路挺野：把 agent 的技能文档当成神经网络一样来训练，有 epoch、batch、学习率、验证集，但一根模型权重都不碰。它牛在哪？我给你拆三点：训练只改一份 skill 文档，新的改动必须在验…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

微软推出SkillOpt，一种将智能体技能文档像神经网络一样训练的方法，通过epoch、batch、学习率和验证集来进行优化，但不修改模型权重。在多项基准测试中取得最佳结果，可跨模型和工具迁移。

0 人收藏 0 人点赞

#self-evolving

TabClaw：用于电子表格操作和表格推理的交互式自进化智能体

arXiv cs.CL ↗ · 2026-06-10 缓存

TabClaw 是一个开源的交互式 AI 智能体，用于电子表格操作和表格推理，利用 LLM 自动化数据分析，支持多表格推理，并通过记忆和技能提取适应个人偏好。

0 人收藏 0 人点赞

#self-evolving

@Sumanth_077: 让智能体设计智能体！Memento-Skills 是一个自我进化的智能体框架，智能体从失败中学习并重写……

X AI KOLs Timeline ↗ · 2026-06-09 缓存

Memento-Skills 是一个自我进化的智能体框架，智能体从失败中学习并重写自己的技能，通过“读取-执行-反思-写入”循环不断改进。该框架在 HLE 和 GAIA 基准测试上进行了测试，并支持 Kimi、MiniMax、GLM 等开源大语言模型。

0 人收藏 0 人点赞

#self-evolving

经验造就技能：通过自我演进的技能记忆实现可泛化的医学智能体推理

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

本文介绍了SkeMex，一个自我演进的框架，通过将交互轨迹提炼为结构化技能记忆来增强医学智能体，并利用上下文相关的效用估计与治理实现更好的长期临床推理。

0 人收藏 0 人点赞

#self-evolving

Skill-3D：面向智能体3D空间推理的进化式场景感知技能

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

Skill-3D是一个框架，通过自我进化的记忆与技能库使AI智能体学习场景感知技能，在3D空间推理任务中显著提升工具使用能力（例如，在VSI-Bench上从39%提升至78%）。

0 人收藏 0 人点赞

#self-evolving

SePO：用于系统提示优化的自进化提示智能体

arXiv cs.CL ↗ · 2026-06-04 缓存

SePO（自进化提示优化）提出了一种自指涉提示智能体，通过进化搜索同时优化任务智能体的系统提示和自身的系统提示。在包括 AIME'25、ARC-AGI-1 和 GPQA 在内的五个基准测试中，SePO 的表现优于 Manual-CoT、TextGrad 和 MetaSPO。

0 人收藏 0 人点赞

#self-evolving

Parthenon Law：一个自进化的法律智能体框架

arXiv cs.AI ↗ · 2026-06-04 缓存

Parthenon 是一个自进化的法律智能体框架，将 LLM 智能体组织为六个可审计层，并通过防数据泄漏的学习循环机制，在不修改模型权重的前提下提升端到端法律事务处理性能。基于 Harvey LAB 的大规模实证研究涵盖 12,510 条智能体轨迹，结果表明当前前沿智能体在严格事务完成度方面仍面临较大挑战，而 Parthenon 相比现有最优基线方法取得了显著提升。

0 人收藏 0 人点赞

#self-evolving

MLEvolve：自动化机器学习算法发现的自我进化框架

Hugging Face Daily Papers ↗ · 2026-06-04

MLEvolve是一个基于LLM的自我进化多智能体框架，用于自动化机器学习算法发现。它将树搜索扩展为Progressive MCGS，并引入基于图的跨分支信息流和Retrospective Memory。该框架在MLE-Bench上取得了最先进的性能，并在数学算法优化任务上优于AlphaEvolve。

0 人收藏 0 人点赞

#self-evolving

SkillDAG：大规模LLM技能选择中的自进化类型化技能图

arXiv cs.AI ↗ · 2026-06-03 缓存

介绍了SkillDAG，一种用于大规模LLM技能选择的自进化类型化有向图，它建模了技能间关系，并允许智能体在执行过程中查询和演化该图，在ALFWorld和SkillsBench上优于基线。

0 人收藏 0 人点赞

#self-evolving

Traj-Evolve: 用于肺癌早期检测患者轨迹建模的自我进化多智能体系统

arXiv cs.AI ↗ · 2026-06-03 缓存

本文提出Traj-Evolve，一个自我进化的多智能体系统，它利用经验池和多智能体强化学习，从纵向电子健康记录中对患者轨迹进行建模，用于肺癌早期检测，性能优于强基线模型。

0 人收藏 0 人点赞

#self-evolving

@Xudong07452910: 这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。它讲了一个很容易被忽略的问题：会更新 Harness，不等于真的会用好 Harness。现在很多 Ag…

X AI KOLs Timeline ↗ · 2026-06-03 缓存

该帖子讨论了一篇论文，指出Agent系统自我进化中，更新Harness（写有用更新）与从更新中受益（后续任务真正使用）是两种不同能力，后者才是关键，弱模型往往不会使用规则。

0 人收藏 0 人点赞

#self-evolving

EvoDS：具备技能学习与上下文管理的自演化自主数据科学智能体

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

EvoDS 是一款自演化自主数据科学智能体，通过强化学习驱动的技能获取与自适应上下文压缩进行改进，在基准测试上超越开源智能体 28.9%。

0 人收藏 0 人点赞

#self-evolving

GrowLoop: 由人类初始化的自我进化对话评估

arXiv cs.CL ↗ · 2026-05-29 缓存

本文介绍了GrowLoop，一个用于评估开放式对话中人类相似度的自我进化评估系统。它利用最少的人类种子标注，迭代优化评估标准，解决了隐性知识、人类意见分歧和模型能力进化等挑战。

0 人收藏 0 人点赞

#self-evolving

面向自进化LLM代理在CUDA内核生成中的反馈到计划决策

arXiv cs.AI ↗ · 2026-05-27 缓存

本文介绍了CUDAnalyst，一种用于分析在CUDA内核生成中自进化LLM代理的各个反馈信号如何影响规划决策的工具，通过轨迹冻结和选择性反馈注入实现可控归因。

0 人收藏 0 人点赞

#self-evolving

@Xudong07452910: 这篇 SkillOpt 论文挺有意思，它其实在讲一件很重要的事： AI Agent 以后不只是靠人写 prompt，而是可以自己训练自己的“工作说明书”。现在很多 skill / prompt 都是一次性写出来的，真实任务一多，各种边界…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

SkillOpt introduces a systematic controllable text-space optimizer that enables AI agents to train and improve their own skills (like 'work instructions') through iterative edits and validation, outperforming human-crafted and one-shot prompts across multiple benchmarks and models.

0 人收藏 0 人点赞

#self-evolving

@omarsar0: 微软研究院的新研究我看到很多AI工程师手写智能体技能文档，并希望它们能泛化。…

X AI KOLs Following ↗ · 2026-05-25 缓存

微软研究院推出了SkillOpt，该方法将智能体技能文档视为可训练的外部状态，利用优化器模型进行受限编辑，并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果，在GPT-5.5上准确率提升超过23个百分点，且零额外推理成本，技能可迁移。

0 人收藏 0 人点赞

self-evolving

提交意见反馈