self-improvement

#self-improvement

@yoheinakajima: ActiveGraph: 一个月进展: 论文#1: 日志即代理 3个LongMemEval实验论文#2: 机制、自我改进循环…

X AI KOLs Following ↗ · 7小时前缓存

ActiveGraph宣布了两篇关于代理记忆（LongMemEval）和自我改进机制的新论文，并提供了参考代理、包模板以及即将在西雅图和旧金山举行的聚会。

0 人收藏 0 人点赞

#self-improvement

@VukRosic99: 测试时强化学习 1. 获取一个未标注的问题 2. 从LLM中采样多个答案 3. 多数投票 → t…

X AI KOLs Timeline ↗ · 2天前缓存

介绍了测试时强化学习（TTRL），一种利用未标注数据上的多数投票创建伪标签以进行强化学习训练的方法，使LLM能够在不依赖真实答案的情况下自我改进。在AIME 2024上取得了显著提升（例如，Qwen-2.5-Math-7B提升159-211%）。

1 人收藏 1 人点赞

#self-improvement

@FinanceYF5: 3/ 他认为，过去5个月AI能力的跃升不只来自Claude Code等工具进步而是因为【Mythos】——Anthropic一个新模型在今年2月完成训练后悄然改变了整个研发节奏关键判断：领先的模型，正在帮助训练下一代领先的模型 …

X AI KOLs Following ↗ · 3天前缓存

据推测，Anthropic新模型Mythos于今年2月训练完成后，悄然改变了研发节奏，使得过去5个月AI能力显著跃升，领先模型正在帮助训练下一代模型。

0 人收藏 0 人点赞

#self-improvement

面向GUI代理的技能引导连续蒸馏

arXiv cs.AI ↗ · 6天前缓存

该论文提出了技能引导连续蒸馏（SGCD），这是一个迭代式自我改进框架，利用技能引导策略在闭环执行过程中为偏离轨迹的状态生成监督信号，将OSWorld-Verified上GUI代理的成功率从约30%提升至超过50%。

0 人收藏 0 人点赞

#self-improvement

ENPIRE: 现实世界中自主机器人策略自我改进

Hugging Face Daily Papers ↗ · 6天前缓存

ENPIRE是一个框架，通过环境反馈、策略优化和进化代码优化的闭环系统，使机器人能够在现实世界中自主实现策略自我改进，在灵巧操作任务上达到99%的成功率。

0 人收藏 0 人点赞

#self-improvement

@yunxi0623: https://x.com/yunxi0623/status/2067195137583968376

X AI KOLs Timeline ↗ · 6天前缓存

该文章列出了未来十年最值得普通人长期训练的25项能力，包括个人IP、AI应用、销售、自媒体等，强调沉淀核心能力而非追逐热点。

0 人收藏 0 人点赞

#self-improvement

@FinanceYF5: ENPIRE 已能独立完成扎束线带、整理细针、安装 GPU 等高精度操作，并展现出“物理扩展”现象：多机器人并行探索，进步速度明显更快。 NVIDIA GEAR 实验室的一部分如今已能通宵自我改进，人类早上只需查看报告。项目也将开源。项…

X AI KOLs Following ↗ · 6天前缓存

NVIDIA GEAR lab introduces ENPIRE, a framework for autonomous real-world robot policy self-improvement that achieves 99% success on dexterous manipulation tasks like GPU insertion and zip-tying, with multi-robot parallel learning and open-source release.

0 人收藏 0 人点赞

#self-improvement

@FinanceYF5: 3/ 把复利栈从底往上搭四层底层是原语：Fable 5、子智能体、worktree，多数人只碰到这层。第二层是编排：目标循环、动态工作流、云端 Routines。第三层是记忆：状态文件、Skills、知识库。顶层是自我改进：视觉自…

X AI KOLs Following ↗ · 2026-06-16 缓存

该推文描述了AI智能体系统的四层复利栈结构：底层原语（Fable 5、子智能体、worktree）、编排层（目标循环、动态工作流、云端Routines）、记忆层（状态文件、Skills、知识库）和顶层自我改进（视觉自检、评估循环、规则蒸馏）。

0 人收藏 0 人点赞

#self-improvement

APEX: Adaptive Principle EXtraction — 面向生产级AI智能体的三层自进化框架

arXiv cs.AI ↗ · 2026-06-16 缓存

APEX 提出了一个面向生产级AI智能体的三层自进化框架，同时优化了控制层（harness）、行为原则和工作流拓扑。在生产级智能体上的实验显示，健康评分和工作流质量显著提升，且仅需极少的LLM调用。

0 人收藏 0 人点赞

#self-improvement

我对RSI的三点看法

Reddit r/singularity ↗ · 2026-06-16

Vadim Fedenko 分享了关于递归自我改进（RSI）的技术分析，认为真正的 RSI 需要能力的提升速度快于复杂度的增长，并且要拓展架构空间，而不仅仅是在固定参数内优化。他对 xAI 和 Anthropic 近期提出的 RSI 可能在一两年内到来的说法表示怀疑，理由是当前的大语言模型（LLM）缺乏减法工程能力，且现有的奖励函数忽视了复杂度。

0 人收藏 0 人点赞

#self-improvement