标签
本文介绍了自我束具(Self-Harness),一种新的范式,其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体,在多个模型上取得了显著的性能提升。
每周精选AI论文综述,涵盖MIT的自我修正发现系统、智能体自我进化解析,以及谷歌使用智能体框架进行形式数学的LEAP系统。
一篇分析AI智能体可靠性的论文,已被ICML 2026接收。研究发现,即使是最新的前沿模型(GPT 5.5、Gemini 3.1 Pro、Claude Opus 4.7),相较于早期版本也仅有微小的可靠性提升,结果一致性较低,且智能体框架中依然存在持续性问题。
本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。