SIA:自我改进的人工智能框架,结合调控器与权重更新
摘要
一种自我改进的人工智能框架,通过语言模型反馈代理同时更新模型权重和任务特定的智能体架构,在法律分类、GPU优化和生物去噪任务上取得了显著提升。
查看缓存全文
缓存时间: 2026/06/08 07:14
论文页面 - SIA: 通过框架与权重更新实现自我改进的AI
来源:https://huggingface.co/papers/2605.27276
摘要
一个自我改进的AI框架,通过语言模型反馈代理,在法律分类、GPU优化和生物数据去噪任务中同时更新模型权重和任务特定的代理架构。
人类是构建和改进AI的瓶颈。模型以及封装它们的代理都是由人类编写、调优和修正的。让AI能够自行找到改进方法的长期目标仍未实现。两条基本不相关的研究路线试图攻克这一瓶颈。“框架更新“学派通过一个元代理重写特定任务代理的框架(其工具、提示、重试逻辑和搜索过程),同时保持模型权重固定;而“测试时训练“学派则使用手写的强化学习流水线,根据任务反馈更新模型自身的权重,同时保持框架固定。这两个孤岛各自为政。我们提出SIA,一个自改进循环,其中语言模型代理(反馈代理)同时更新特定任务代理的框架和权重。我们在三个截然不同的领域进行评估:中国法律罪名分类、低级GPU内核优化以及单细胞RNA去噪。结合两种杠杆在所有三个基准测试上都优于仅进行框架迭代。与初始基线相比,在LawBench上提升56.6%,GPU内核运行时间减少91.9%,去噪效果提升502%。框架更新让模型具备代理性,塑造其搜索和行动方式;而权重更新则构建了任何提示或框架都无法灌输的领域直觉。
查看arXiv页面 (https://arxiv.org/abs/2605.27276)查看PDF (https://arxiv.org/pdf/2605.27276)项目页面 (https://hexolabs.com/)GitHub754 (https://github.com/hexo-ai/sia)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.27276)
在你的代理中获取此论文:
hf papers read 2605.27276
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.27276即可从本页链接。
引用此论文的数据集0
无数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.27276即可从本页链接。
引用此论文的空间0
无空间链接此论文
在空间README.md中引用arxiv.org/abs/2605.27276即可从本页链接。
包含此论文的收藏0
无收藏包含此论文
将此论文添加至一个收藏 (https://huggingface.co/new-collection)即可从本页链接。
相似文章
hexo-ai/sia
SIA是一个自我改进的AI框架,通过元智能体、目标智能体和反馈智能体,自动提升在基准任务上的性能,在LawBench、GPU内核优化和单细胞RNA去噪方面取得了显著提升。
@rohanpaul_ai: 这篇论文展示了一种人工智能通过重写其设置并更新其模型来更好地自我改进。问题是,大部分…
本文介绍了SIA,一种自我改进的AI循环,它结合了脚手架重写和权重更新(通过LoRA)以提升任务性能。在三个不同的任务上测试,它优于仅使用脚手架改进的设置。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2066928605691523210
这篇文章将28篇研究论文提炼成一个10层堆栈,用于构建围绕AI模型的自我改进框架,强调有限、有门控的变化,而非通用的代理循环。
持续增强框架:面向自我改进基础智能体的在线适应
本文介绍了“持续增强框架”(Continual Harness),该框架使具身人工智能智能体能够在无需重置环境的情况下实现在线自我改进。研究展示了在《宝可梦》游戏中的显著进展,通过自动化提示词和技能优化,智能体达到了人类水平的表现。
@qinzytech: https://x.com/qinzytech/status/2066585405479371092
对构建自我进化AI代理的两种方法的技术分析:基于模型的方法(通过像SSMs或具有快速权重更新的transformer等架构,以及训练方法)和基于工具的方法(通过内存或能够自我重写的元工具)。作者为不同受众提供了实用建议。