SIA：自我改进的人工智能框架，结合调控器与权重更新

Hugging Face Daily Papers 2026/05/26 00:00 论文

摘要

一种自我改进的人工智能框架，通过语言模型反馈代理同时更新模型权重和任务特定的智能体架构，在法律分类、GPU优化和生物去噪任务上取得了显著提升。

人类是构建和改进人工智能的瓶颈。无论是模型本身，还是包裹模型的智能体，都是由人类编写、调优和修正的。让AI能够自我改进的长期目标依然是一个开放性问题。两条基本独立的研究路线试图攻克这一瓶颈。调控器更新学派（harness-update school）使用元代理（meta-agent）重写任务特定智能体的支架（即其工具、提示、重试逻辑和搜索过程），而模型权重保持不变。测试时训练学派（test-time training school）则使用手工编写的强化学习流水线，根据任务反馈更新模型自身的权重，同时保持调控器不变。这两个分支各自独立运作。我们提出了SIA，一种自我改进的循环，其中由一个语言模型代理（反馈代理，Feedback-Agent）同时更新任务特定智能体的调控器和权重。我们在三个截然不同的领域进行了评估：中文法律罪名分类、底层GPU内核优化以及单细胞RNA去噪。结合两个杠杆在所有三个基准上都优于仅迭代支架的方法。具体提升为：在LawBench上提升56.6%，在GPU内核上运行时减少91.9%，在去噪上比初始基线提升502%。调控器更新使模型具备智能体能力，塑造其搜索和行动方式；而权重更新则构建了任何提示或支架都无法灌输的领域直觉。

查看原文

查看缓存全文

缓存时间: 2026/06/08 07:14

论文页面 - SIA: 通过框架与权重更新实现自我改进的AI

来源：https://huggingface.co/papers/2605.27276

摘要

一个自我改进的AI框架，通过语言模型反馈代理，在法律分类、GPU优化和生物数据去噪任务中同时更新模型权重和任务特定的代理架构。

人类是构建和改进AI的瓶颈。模型以及封装它们的代理都是由人类编写、调优和修正的。让AI能够自行找到改进方法的长期目标仍未实现。两条基本不相关的研究路线试图攻克这一瓶颈。“框架更新“学派通过一个元代理重写特定任务代理的框架（其工具、提示、重试逻辑和搜索过程），同时保持模型权重固定；而“测试时训练“学派则使用手写的强化学习流水线，根据任务反馈更新模型自身的权重，同时保持框架固定。这两个孤岛各自为政。我们提出SIA，一个自改进循环，其中语言模型代理（反馈代理）同时更新特定任务代理的框架和权重。我们在三个截然不同的领域进行评估：中国法律罪名分类、低级GPU内核优化以及单细胞RNA去噪。结合两种杠杆在所有三个基准测试上都优于仅进行框架迭代。与初始基线相比，在LawBench上提升56.6%，GPU内核运行时间减少91.9%，去噪效果提升502%。框架更新让模型具备代理性，塑造其搜索和行动方式；而权重更新则构建了任何提示或框架都无法灌输的领域直觉。

查看arXiv页面 (https://arxiv.org/abs/2605.27276)查看PDF (https://arxiv.org/pdf/2605.27276)项目页面 (https://hexolabs.com/)GitHub754 (https://github.com/hexo-ai/sia)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.27276)

在你的代理中获取此论文：

hf papers read 2605.27276

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.27276即可从本页链接。

引用此论文的数据集0

无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.27276即可从本页链接。

引用此论文的空间0

无空间链接此论文

在空间README.md中引用arxiv.org/abs/2605.27276即可从本页链接。

包含此论文的收藏0

无收藏包含此论文

将此论文添加至一个收藏 (https://huggingface.co/new-collection)即可从本页链接。

SIA：自我改进的人工智能框架，结合调控器与权重更新

论文页面 - SIA: 通过框架与权重更新实现自我改进的AI

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的空间0

包含此论文的收藏0

相似文章

hexo-ai/sia

@rohanpaul_ai: 这篇论文展示了一种人工智能通过重写其设置并更新其模型来更好地自我改进。问题是，大部分…

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2066928605691523210

持续增强框架：面向自我改进基础智能体的在线适应

@qinzytech: https://x.com/qinzytech/status/2066585405479371092

提交意见反馈