SIA:自我改进的人工智能框架,结合调控器与权重更新

Hugging Face Daily Papers 论文

摘要

一种自我改进的人工智能框架,通过语言模型反馈代理同时更新模型权重和任务特定的智能体架构,在法律分类、GPU优化和生物去噪任务上取得了显著提升。

人类是构建和改进人工智能的瓶颈。无论是模型本身,还是包裹模型的智能体,都是由人类编写、调优和修正的。让AI能够自我改进的长期目标依然是一个开放性问题。两条基本独立的研究路线试图攻克这一瓶颈。调控器更新学派(harness-update school)使用元代理(meta-agent)重写任务特定智能体的支架(即其工具、提示、重试逻辑和搜索过程),而模型权重保持不变。测试时训练学派(test-time training school)则使用手工编写的强化学习流水线,根据任务反馈更新模型自身的权重,同时保持调控器不变。这两个分支各自独立运作。我们提出了SIA,一种自我改进的循环,其中由一个语言模型代理(反馈代理,Feedback-Agent)同时更新任务特定智能体的调控器和权重。我们在三个截然不同的领域进行了评估:中文法律罪名分类、底层GPU内核优化以及单细胞RNA去噪。结合两个杠杆在所有三个基准上都优于仅迭代支架的方法。具体提升为:在LawBench上提升56.6%,在GPU内核上运行时减少91.9%,在去噪上比初始基线提升502%。调控器更新使模型具备智能体能力,塑造其搜索和行动方式;而权重更新则构建了任何提示或支架都无法灌输的领域直觉。
查看原文
查看缓存全文

缓存时间: 2026/06/08 07:14

论文页面 - SIA: 通过框架与权重更新实现自我改进的AI

来源:https://huggingface.co/papers/2605.27276

摘要

一个自我改进的AI框架,通过语言模型反馈代理,在法律分类、GPU优化和生物数据去噪任务中同时更新模型权重和任务特定的代理架构。

人类是构建和改进AI的瓶颈。模型以及封装它们的代理都是由人类编写、调优和修正的。让AI能够自行找到改进方法的长期目标仍未实现。两条基本不相关的研究路线试图攻克这一瓶颈。“框架更新“学派通过一个元代理重写特定任务代理的框架(其工具、提示、重试逻辑和搜索过程),同时保持模型权重固定;而“测试时训练“学派则使用手写的强化学习流水线,根据任务反馈更新模型自身的权重,同时保持框架固定。这两个孤岛各自为政。我们提出SIA,一个自改进循环,其中语言模型代理(反馈代理)同时更新特定任务代理的框架和权重。我们在三个截然不同的领域进行评估:中国法律罪名分类、低级GPU内核优化以及单细胞RNA去噪。结合两种杠杆在所有三个基准测试上都优于仅进行框架迭代。与初始基线相比,在LawBench上提升56.6%,GPU内核运行时间减少91.9%,去噪效果提升502%。框架更新让模型具备代理性,塑造其搜索和行动方式;而权重更新则构建了任何提示或框架都无法灌输的领域直觉。

查看arXiv页面 (https://arxiv.org/abs/2605.27276)查看PDF (https://arxiv.org/pdf/2605.27276)项目页面 (https://hexolabs.com/)GitHub754 (https://github.com/hexo-ai/sia)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.27276)

在你的代理中获取此论文:

hf papers read 2605.27276

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.27276即可从本页链接。

引用此论文的数据集0

无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.27276即可从本页链接。

引用此论文的空间0

无空间链接此论文

在空间README.md中引用arxiv.org/abs/2605.27276即可从本页链接。

包含此论文的收藏0

无收藏包含此论文

将此论文添加至一个收藏 (https://huggingface.co/new-collection)即可从本页链接。

相似文章

hexo-ai/sia

GitHub Trending (daily)

SIA是一个自我改进的AI框架,通过元智能体、目标智能体和反馈智能体,自动提升在基准任务上的性能,在LawBench、GPU内核优化和单细胞RNA去噪方面取得了显著提升。

持续增强框架:面向自我改进基础智能体的在线适应

Hugging Face Daily Papers

本文介绍了“持续增强框架”(Continual Harness),该框架使具身人工智能智能体能够在无需重置环境的情况下实现在线自我改进。研究展示了在《宝可梦》游戏中的显著进展,通过自动化提示词和技能优化,智能体达到了人类水平的表现。

@qinzytech: https://x.com/qinzytech/status/2066585405479371092

X AI KOLs Timeline

对构建自我进化AI代理的两种方法的技术分析:基于模型的方法(通过像SSMs或具有快速权重更新的transformer等架构,以及训练方法)和基于工具的方法(通过内存或能够自我重写的元工具)。作者为不同受众提供了实用建议。