标签
ActiveGraph宣布了两篇关于代理记忆(LongMemEval)和自我改进机制的新论文,并提供了参考代理、包模板以及即将在西雅图和旧金山举行的聚会。
介绍了测试时强化学习(TTRL),一种利用未标注数据上的多数投票创建伪标签以进行强化学习训练的方法,使LLM能够在不依赖真实答案的情况下自我改进。在AIME 2024上取得了显著提升(例如,Qwen-2.5-Math-7B提升159-211%)。
据推测,Anthropic新模型Mythos于今年2月训练完成后,悄然改变了研发节奏,使得过去5个月AI能力显著跃升,领先模型正在帮助训练下一代模型。
该论文提出了技能引导连续蒸馏(SGCD),这是一个迭代式自我改进框架,利用技能引导策略在闭环执行过程中为偏离轨迹的状态生成监督信号,将OSWorld-Verified上GUI代理的成功率从约30%提升至超过50%。
ENPIRE是一个框架,通过环境反馈、策略优化和进化代码优化的闭环系统,使机器人能够在现实世界中自主实现策略自我改进,在灵巧操作任务上达到99%的成功率。
该文章列出了未来十年最值得普通人长期训练的25项能力,包括个人IP、AI应用、销售、自媒体等,强调沉淀核心能力而非追逐热点。
NVIDIA GEAR lab introduces ENPIRE, a framework for autonomous real-world robot policy self-improvement that achieves 99% success on dexterous manipulation tasks like GPU insertion and zip-tying, with multi-robot parallel learning and open-source release.
该推文描述了AI智能体系统的四层复利栈结构:底层原语(Fable 5、子智能体、worktree)、编排层(目标循环、动态工作流、云端Routines)、记忆层(状态文件、Skills、知识库)和顶层自我改进(视觉自检、评估循环、规则蒸馏)。
APEX 提出了一个面向生产级AI智能体的三层自进化框架,同时优化了控制层(harness)、行为原则和工作流拓扑。在生产级智能体上的实验显示,健康评分和工作流质量显著提升,且仅需极少的LLM调用。
Vadim Fedenko 分享了关于递归自我改进(RSI)的技术分析,认为真正的 RSI 需要能力的提升速度快于复杂度的增长,并且要拓展架构空间,而不仅仅是在固定参数内优化。他对 xAI 和 Anthropic 近期提出的 RSI 可能在一两年内到来的说法表示怀疑,理由是当前的大语言模型(LLM)缺乏减法工程能力,且现有的奖励函数忽视了复杂度。
文章总结了做好研究的八项基本功,包括选题、判断、输入、记录、快速试错、关注细节、跨学科协作和寻求反馈,强调研究能力是长期积累的过程。
为 Hermes Agent 引入 Write Gate,允许用户批准或拒绝记忆和技能更新,增强对 AI 代理自我改进的控制与安全性。
作者展示了一种受控的自我改进方法,适用于AI智能体,使用一种称为“regime-to-seam”的方法,将失败分类以修复目标区域,该方法基于activegraph构建。
Anthropic的论文探讨了AI系统自主构建或改进自身的场景,并讨论了其对安全性与对齐性的影响。
这条推文线程介绍了一项研究:训练模型验证自身工作,可使模型在复杂数学问题上的准确率几乎翻倍,并将科学推理能力提升14倍。
本文总结了Google DeepMind三位研究员关于推理、多模态生成(Omni)、编码与自我改进的深度对谈,强调视觉与动态思考将超越文本思维链,并探讨了世界模型和合成训练案例的未来趋势。
本文介绍了元智能体挑战(MAC),这是一个用于评估AI模型通过迭代编程自主开发智能体系统能力的基准测试。结果表明,当前模型很少能达到人类基线水平,且表现出奖励破解等问题,凸显了自我改进能力上的不足。
作者探索构建一个名为SPINE的AI代理系统,该系统能够通过本地推理模型进行自我开发和改进,重点在于确定性工作流和可读性,使中等规模的模型能够可靠运行。
本文提出了一种针对大型语言模型的“睡眠”范式,该范式通过记忆巩固和梦境阶段实现持续学习,使模型能够将短期知识提炼为长期参数,并在无需人工监督的情况下自我改进。