self-evolving

标签

Cards List
#self-evolving

@TowardMu: https://x.com/TowardMu/status/2069194694228431273

X AI KOLs Timeline · 2天前 缓存

介绍Apodex,一个自进化型重型求解器,采用verification-centric agent team架构进行深度研究,支持自我求解、证据链验证等功能,目前处于抢先体验阶段且完全免费。

0 人收藏 0 人点赞
#self-evolving

@Phoenixyin13: 不是暴论,这套自我进化的 Compounding Loop 才是长期杀手级。 现在,根据这篇文章,每个人要习惯让自己的整个流程,包括拆解方式、验证规则、输出格式、你的偏好打包成一个可复用的Skill。这将是来自未来的能力。 下次遇到类似任…

X AI KOLs Timeline · 6天前 缓存

该推文讨论了将个人工作流程(包括拆解方式、验证规则、输出格式等)打包成可复用Skill的理念,认为这种自我进化的Compounding Loop符合控制论原则,是长期关键能力。

0 人收藏 0 人点赞
#self-evolving

@heyshrutimishra: Apodex 1.0 发布,架构确实与众不同。它基于 Qwen3.5 进行后训练,成为一个自我进化的系统:…

X AI KOLs Following · 2026-06-17 缓存

Apodex 1.0 是一个基于 Qwen3.5 后训练的自我进化 AI 系统,在 BrowseComp、DeepSearchQA 和 HLE-text 上达到 SOTA。其 4B 迷你模型性能超越 30B 级别模型,并配有 AgentOS 运行时用于任务编排。开放权重可用。

0 人收藏 0 人点赞
#self-evolving

@NFTCPS: HarnessX这玩意儿挺有意思:一个能自己改自己的智能体架构。 以前架构怎么变,全靠人手调。新模型一出,Anthropic就把Claude Code里的规划步骤砍了,Manus半年重构了五次智能体,每次都在做减法。改什么、什么时候改,一…

X AI KOLs Timeline · 2026-06-17 缓存

HarnessX introduces a framework for self-evolving AI agent harnesses that treats the runtime harness as a first-class object, enabling automatic adaptation via trace-driven reinforcement learning. It achieves average gains of +14.5% across five benchmarks, with larger improvements for weaker models.

0 人收藏 0 人点赞
#self-evolving

@NFTCPS: 微软搞了个东西叫 SkillOpt,思路挺野:把 agent 的技能文档当成神经网络一样来训练,有 epoch、batch、学习率、验证集,但一根模型权重都不碰。 它牛在哪?我给你拆三点: 训练只改一份 skill 文档,新的改动必须在验…

X AI KOLs Timeline · 2026-06-17 缓存

微软推出SkillOpt,一种将智能体技能文档像神经网络一样训练的方法,通过epoch、batch、学习率和验证集来进行优化,但不修改模型权重。在多项基准测试中取得最佳结果,可跨模型和工具迁移。

0 人收藏 0 人点赞
#self-evolving

TabClaw:用于电子表格操作和表格推理的交互式自进化智能体

arXiv cs.CL · 2026-06-10 缓存

TabClaw 是一个开源的交互式 AI 智能体,用于电子表格操作和表格推理,利用 LLM 自动化数据分析,支持多表格推理,并通过记忆和技能提取适应个人偏好。

0 人收藏 0 人点赞
#self-evolving

@Sumanth_077: 让智能体设计智能体!Memento-Skills 是一个自我进化的智能体框架,智能体从失败中学习并重写……

X AI KOLs Timeline · 2026-06-09 缓存

Memento-Skills 是一个自我进化的智能体框架,智能体从失败中学习并重写自己的技能,通过“读取-执行-反思-写入”循环不断改进。该框架在 HLE 和 GAIA 基准测试上进行了测试,并支持 Kimi、MiniMax、GLM 等开源大语言模型。

0 人收藏 0 人点赞
#self-evolving

经验造就技能:通过自我演进的技能记忆实现可泛化的医学智能体推理

Hugging Face Daily Papers · 2026-06-08 缓存

本文介绍了SkeMex,一个自我演进的框架,通过将交互轨迹提炼为结构化技能记忆来增强医学智能体,并利用上下文相关的效用估计与治理实现更好的长期临床推理。

0 人收藏 0 人点赞
#self-evolving

Skill-3D:面向智能体3D空间推理的进化式场景感知技能

Hugging Face Daily Papers · 2026-06-05 缓存

Skill-3D是一个框架,通过自我进化的记忆与技能库使AI智能体学习场景感知技能,在3D空间推理任务中显著提升工具使用能力(例如,在VSI-Bench上从39%提升至78%)。

0 人收藏 0 人点赞
#self-evolving

SePO:用于系统提示优化的自进化提示智能体

arXiv cs.CL · 2026-06-04 缓存

SePO(自进化提示优化)提出了一种自指涉提示智能体,通过进化搜索同时优化任务智能体的系统提示和自身的系统提示。在包括 AIME'25、ARC-AGI-1 和 GPQA 在内的五个基准测试中,SePO 的表现优于 Manual-CoT、TextGrad 和 MetaSPO。

0 人收藏 0 人点赞
#self-evolving

Parthenon Law:一个自进化的法律智能体框架

arXiv cs.AI · 2026-06-04 缓存

Parthenon 是一个自进化的法律智能体框架,将 LLM 智能体组织为六个可审计层,并通过防数据泄漏的学习循环机制,在不修改模型权重的前提下提升端到端法律事务处理性能。基于 Harvey LAB 的大规模实证研究涵盖 12,510 条智能体轨迹,结果表明当前前沿智能体在严格事务完成度方面仍面临较大挑战,而 Parthenon 相比现有最优基线方法取得了显著提升。

0 人收藏 0 人点赞
#self-evolving

MLEvolve:自动化机器学习算法发现的自我进化框架

Hugging Face Daily Papers · 2026-06-04

MLEvolve是一个基于LLM的自我进化多智能体框架,用于自动化机器学习算法发现。它将树搜索扩展为Progressive MCGS,并引入基于图的跨分支信息流和Retrospective Memory。该框架在MLE-Bench上取得了最先进的性能,并在数学算法优化任务上优于AlphaEvolve。

0 人收藏 0 人点赞
#self-evolving

SkillDAG:大规模LLM技能选择中的自进化类型化技能图

arXiv cs.AI · 2026-06-03 缓存

介绍了SkillDAG,一种用于大规模LLM技能选择的自进化类型化有向图,它建模了技能间关系,并允许智能体在执行过程中查询和演化该图,在ALFWorld和SkillsBench上优于基线。

0 人收藏 0 人点赞
#self-evolving

Traj-Evolve: 用于肺癌早期检测患者轨迹建模的自我进化多智能体系统

arXiv cs.AI · 2026-06-03 缓存

本文提出Traj-Evolve,一个自我进化的多智能体系统,它利用经验池和多智能体强化学习,从纵向电子健康记录中对患者轨迹进行建模,用于肺癌早期检测,性能优于强基线模型。

0 人收藏 0 人点赞
#self-evolving

@Xudong07452910: 这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。 它讲了一个很容易被忽略的问题:会更新 Harness,不等于真的会用好 Harness。 现在很多 Ag…

X AI KOLs Timeline · 2026-06-03 缓存

该帖子讨论了一篇论文,指出Agent系统自我进化中,更新Harness(写有用更新)与从更新中受益(后续任务真正使用)是两种不同能力,后者才是关键,弱模型往往不会使用规则。

0 人收藏 0 人点赞
#self-evolving

EvoDS:具备技能学习与上下文管理的自演化自主数据科学智能体

Hugging Face Daily Papers · 2026-06-02 缓存

EvoDS 是一款自演化自主数据科学智能体,通过强化学习驱动的技能获取与自适应上下文压缩进行改进,在基准测试上超越开源智能体 28.9%。

0 人收藏 0 人点赞
#self-evolving

GrowLoop: 由人类初始化的自我进化对话评估

arXiv cs.CL · 2026-05-29 缓存

本文介绍了GrowLoop,一个用于评估开放式对话中人类相似度的自我进化评估系统。它利用最少的人类种子标注,迭代优化评估标准,解决了隐性知识、人类意见分歧和模型能力进化等挑战。

0 人收藏 0 人点赞
#self-evolving

面向自进化LLM代理在CUDA内核生成中的反馈到计划决策

arXiv cs.AI · 2026-05-27 缓存

本文介绍了CUDAnalyst,一种用于分析在CUDA内核生成中自进化LLM代理的各个反馈信号如何影响规划决策的工具,通过轨迹冻结和选择性反馈注入实现可控归因。

0 人收藏 0 人点赞
#self-evolving

@Xudong07452910: 这篇 SkillOpt 论文挺有意思,它其实在讲一件很重要的事: AI Agent 以后不只是靠人写 prompt,而是可以自己训练自己的“工作说明书”。 现在很多 skill / prompt 都是一次性写出来的,真实任务一多,各种边界…

X AI KOLs Timeline · 2026-05-26 缓存

SkillOpt introduces a systematic controllable text-space optimizer that enables AI agents to train and improve their own skills (like 'work instructions') through iterative edits and validation, outperforming human-crafted and one-shot prompts across multiple benchmarks and models.

0 人收藏 0 人点赞
#self-evolving

@omarsar0: 微软研究院的新研究 我看到很多AI工程师手写智能体技能文档,并希望它们能泛化。…

X AI KOLs Following · 2026-05-25 缓存

微软研究院推出了SkillOpt,该方法将智能体技能文档视为可训练的外部状态,利用优化器模型进行受限编辑,并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果,在GPT-5.5上准确率提升超过23个百分点,且零额外推理成本,技能可迁移。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈