@rohanpaul_ai: 这篇论文展示了一种人工智能通过重写其设置并更新其模型来更好地自我改进。问题是,大部分…
摘要
本文介绍了SIA,一种自我改进的AI循环,它结合了脚手架重写和权重更新(通过LoRA)以提升任务性能。在三个不同的任务上测试,它优于仅使用脚手架改进的设置。
查看缓存全文
缓存时间: 2026/06/11 21:41
本文展示了一个 AI 在重写自身设置并更新模型时能够实现自我改进。
问题在于,目前大多数 AI 的进步仍然依赖于人工修改提示词、工具、代码、训练数据和模型权重。
论文提出的思路是 SIA——一个循环过程,其中由一个 AI 观察某个任务智能体的执行情况,然后要么调整该智能体的外部设置,要么直接训练模型本身。
外部设置是指提示词、工具、重试规则、输出解析等要素;而权重更新则指通过任务反馈来改变模型已习得的行为。
这个循环的工作方式如下:任务智能体尝试多个答案或程序,验证器对其进行评分,这些评分成为训练反馈。
然后系统更新一小部分附加权重,即 LoRA 权重,这能在不重新训练整个模型的情况下改变模型的行为。
因此基础模型基本保持不变,但 LoRA 适配器学会了“像这样的输出获得了高奖励,像那样的输出失败了。”
作者在三个截然不同的任务上进行了测试:中文法律罪名分类、GPU 内核速度调优以及单细胞 RNA 去噪。
结合外部设置更新与权重更新的版本在三个任务上都超越了仅改动外部设置的方法,在 LawBench 上达到 70.1% 的准确率,生成的 GPU 代码比此前最优结果更快,在去噪任务上取得了 0.289 的成绩。
主要收获是:更好的架构有助于智能体表现更佳,而权重更新则能帮助它学习到仅靠提示词和工具无法发现的模式。
链接 – arxiv.org/abs/2605.27276
标题:“SIA: Self Improving AI with Harness & Weight Updates”
相似文章
SIA:自我改进的人工智能框架,结合调控器与权重更新
一种自我改进的人工智能框架,通过语言模型反馈代理同时更新模型权重和任务特定的智能体架构,在法律分类、GPU优化和生物去噪任务上取得了显著提升。
@rohanpaul_ai: 精彩新论文来自Meta、CMU及其他实验室。表明编码代理通过制造自己的...来更快地提升。
来自Meta、CMU及其他实验室的一篇新论文提出了Self-play SWE-RL,这是一种方法,编码代理通过在实际代码库中制造和修复错误来训练自己,在SWE-bench基准测试上取得了显著提升,且不依赖人类编写的任务。
@kunalbhatia91:超级智能将建立在自我改进之上。今天,@hexoai 激动地发布‘SIA’——一个开源的自我改进人工智能…
HexoAI 发布了 SIA,一个开源的自我改进型人工智能,能够通过递归自我提升来实现任何目标。
@rohanpaul_ai: 来自MIT新论文的自进化AI科学家好主意。尝试让AI科学家意识到当其当前…
本文讨论了一篇新的MIT论文,提出了一种自进化AI科学家的框架,该框架能够识别当前模型的不足并引入新的科学概念,区分了检索、搜索和发现。
当AI自我构建:我们在递归自我改进方面的进展
Anthropic研究院发布了一项关于递归自我改进进展的分析报告,显示AI已在加速AI开发——工程师每季度的代码产出提升了8倍——并预测具备完全自主自我改进能力的AI系统或将比大多数机构所预期的更早到来。