标签
Nous Research 和 NVIDIA 分别独立地走向了相同的架构——持久化 AI 代理,这些代理驻留在服务器上并每日进化,标志着从编码副驾驶向自主服务器端代理的转变。
本文介绍iLands项目,探索将自主AI代理作为具有记忆和现实背景的持久社会与经济实体,而非仅仅执行任务的工具。
AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。
duet-agent 是一个用于持久化 AI 代理任务的框架,这些任务可以跨越单个聊天会话,实现长时间运行、可恢复的任务,具有跨会话记忆和通过 relay 轮次观察到的状态。