Agent libOS:受库操作系统启发的用于长期运行、能力可控的大语言模型智能体的运行时

Hugging Face Daily Papers 论文

摘要

Agent libOS 引入了一种受库操作系统启发的、用于大语言模型智能体的运行时基座,将智能体视为具有显式能力、生命周期管理、审计记录和人工审批队列的可调度进程。该设计将信任边界从工具调度移至运行时原语,使得长期运行的智能体能够安全地被调度、授权、恢复和审计。

大语言模型(LLM)智能体正在从请求-响应助手演进为长期运行的软件主体:它们跨模型调用维护状态、分叉子任务、等待外部事件、请求人工授权、生成工具,并执行必须被恢复和审计的副作用。本文提出 Agent libOS,一种受库操作系统启发的用于 LLM 智能体的运行时基座。Agent libOS 在传统宿主操作系统之上运行;它不实现硬件驱动、内核模式隔离或与 POSIX 兼容的操作系统。相反,它将智能体视为 AgentProcess:一个具有进程身份、父子关系、生命周期状态、源自 AgentImage 的工具表、类型化对象内存、显式能力、人工队列、检查点、事件和审计记录的可调度执行主体。其核心设计原则是:工具是类似 libc 的封装器;运行时原语是权限边界。文件系统访问、对象访问、休眠、人工审批、JIT 工具注册以及外部副作用均根据显式能力和策略在原语边界处进行检查。 我们描述了该设计、威胁模型、Python 原型以及面向安全的评估。目前的原型实现了异步调度、命名空间本地对象内存、运行时集成的人工审批、一次性权限授予、每进程工作目录、Shell 和镜像注册原语、基于 libOS 系统调用代理的 Deno/TypeScript JIT 工具、文件系统/对象桥接工具、可注入的资源提供者基座、确定性演示、真实模型烟雾测试脚本以及截至撰写时的 123 个回归测试。Agent libOS 并非为了提高规划器准确性,而是展示了一种运行时基座,在该基座中,长期运行的 LLM 智能体可以被调度、授权、恢复和审计,而无需将工具调度视为信任边界。
查看原文

相似文章

Formal Skill: 面向高效精准LLM智能体的可编程运行时技能

arXiv cs.AI

本文介绍了Formal Skill,这是一种面向LLM智能体的运行时原生抽象,它将可重用流程编码为可执行状态机,配有JSON元数据、Python执行器和钩子控制的逻辑。还介绍了一个名为FairyClaw的开源实现,在Harness-Bench上展示了具有竞争力的性能,且减少了token使用量。