@rohanpaul_ai: 这篇论文展示了一种人工智能通过重写其设置并更新其模型来更好地自我改进。问题是,大部分…

X AI KOLs Following 论文

摘要

本文介绍了SIA,一种自我改进的AI循环,它结合了脚手架重写和权重更新(通过LoRA)以提升任务性能。在三个不同的任务上测试,它优于仅使用脚手架改进的设置。

这篇论文展示了一种人工智能通过重写其设置并更新其模型来更好地自我改进。 问题是,大多数AI进步仍然依赖于人们手动更改提示、工具、代码、训练数据和模型权重。 这篇论文的想法是SIA,一个循环,其中一个AI观察任务代理的执行情况,然后要么更改代理的外部设置,要么训练模型本身。 外部设置指的是提示、工具、重试规则和输出解析等内容,而权重更新则意味着通过任务反馈改变模型的学习行为。 这个循环的工作方式如下:任务代理尝试许多答案或程序,验证器对其进行评分,这些评分成为训练反馈。 然后系统更新一组称为LoRA权重的小型附加权重,这改变了模型的行为,而无需重新训练整个模型。 因此,基础模型基本保持不变,但LoRA适配器学习到“这样的输出获得高奖励,那样的输出失败。” 作者在三个截然不同的任务上测试了这一点:中文法律罪名分类、GPU内核速度调优和单细胞RNA降噪。 结合版本在所有三个任务上击败了仅设置改进,在LawBench上达到70.1%,生成比先前最佳更快的GPU代码,降噪达到0.289。 主要教训是,更好的脚手架有助于代理更好地行动,但权重更新帮助它学习提示和工具单独无法找到的任务模式。 ---- 链接 – arxiv. org/abs/2605.27276 标题: "SIA: Self Improving AI with Harness & Weight Updates"
查看原文
查看缓存全文

缓存时间: 2026/06/11 21:41

本文展示了一个 AI 在重写自身设置并更新模型时能够实现自我改进。

问题在于,目前大多数 AI 的进步仍然依赖于人工修改提示词、工具、代码、训练数据和模型权重。

论文提出的思路是 SIA——一个循环过程,其中由一个 AI 观察某个任务智能体的执行情况,然后要么调整该智能体的外部设置,要么直接训练模型本身。

外部设置是指提示词、工具、重试规则、输出解析等要素;而权重更新则指通过任务反馈来改变模型已习得的行为。

这个循环的工作方式如下:任务智能体尝试多个答案或程序,验证器对其进行评分,这些评分成为训练反馈。

然后系统更新一小部分附加权重,即 LoRA 权重,这能在不重新训练整个模型的情况下改变模型的行为。

因此基础模型基本保持不变,但 LoRA 适配器学会了“像这样的输出获得了高奖励,像那样的输出失败了。”

作者在三个截然不同的任务上进行了测试:中文法律罪名分类、GPU 内核速度调优以及单细胞 RNA 去噪。

结合外部设置更新与权重更新的版本在三个任务上都超越了仅改动外部设置的方法,在 LawBench 上达到 70.1% 的准确率,生成的 GPU 代码比此前最优结果更快,在去噪任务上取得了 0.289 的成绩。

主要收获是:更好的架构有助于智能体表现更佳,而权重更新则能帮助它学习到仅靠提示词和工具无法发现的模式。


链接 – arxiv.org/abs/2605.27276

标题:“SIA: Self Improving AI with Harness & Weight Updates”

相似文章

当AI自我构建:我们在递归自我改进方面的进展

Hacker News Top

Anthropic研究院发布了一项关于递归自我改进进展的分析报告,显示AI已在加速AI开发——工程师每季度的代码产出提升了8倍——并预测具备完全自主自我改进能力的AI系统或将比大多数机构所预期的更早到来。