LabGuard:将自然语言实验室规则转化为具身实验室代理的运行时防护

arXiv cs.AI 论文

摘要

LabGuard 引入了一个框架,将自然语言实验室安全规则转化为具身代理的可执行运行时监控器,在不影响任务成功率的情况下,将不安全事件从 39.5% 降至 23.8%。

arXiv:2606.31045v1 公告类型:新 摘要:科学具身代理执行实验室程序的能力日益增强,但在动态实验室环境中安全执行这些程序仍然具有挑战性。当前的安全方法通常忽略了将实验室自然语言(包括安全规则、手册、协议和标准操作程序)转化为机器可检查的运行时约束这一中间步骤。我们提出了 LabGuard(实验室防护),这是一个从语言到执行的安全套件,它将自然语言实验室规则转化为可执行的规范,并将其部署为运行时防护。LabGuard 包含三个核心组件:LabGuard-IR,定义了一种类型化的可执行表示;LabGuard-Bench,提供了从203条种子实验室规则扩展而来的812个监督标注;以及 LabGuard-Grounder,将自然语言实验室规则映射到 LabGuard-IR。生成的 IR 实例由 LabGuard 流水线处理,该流水线将其编译为运行时监控器,并应用于控制器边界。实验表明,LabGuard 能够泛化到未见过的实验室规则来源,任务范围 F1 达到79.4,并且在监控器编译后将不安全事件从39.5%降至23.8%。在 LabUtopia 中,其运行时监控器与 ACT 集成,将干预率保持在0.5%以下,同时保持任务成功率。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:36

# 将自然语言实验室规则转化为具身实验室代理的运行时防护罩  
来源:https://arxiv.org/html/2606.31045  
景普杨¹,冯先继¹,²¹†,来郑钊³¹†,崔哲宣³,欧阳广贤³,江倩³,张帆²,彭敏¹,谢倩倩¹²†,普雷斯拉夫·纳科夫²,谢卓涵²²†  
¹武汉大学 ²MBZUAI ³东北大学  
\{fengxian\.ji, fan\.zhang, preslav\.nakov, zhuohan\.xie\}@mbzuai\.ac\.ae  
zhengzhaolai@cuhk\.edu\.cn, jingpuyang290@gmail\.com, kasakura@outlook\.com  
\{pengm, xieq\}@whu\.edu\.cn, \{202316187, 202219047\}@stu\.neuq\.edu\.cn  

###### 摘要  
科学具身代理越来越能够执行实验室程序,但在动态实验室环境中安全执行这些程序仍然具有挑战性。当前的安全方法常常忽略了将实验室自然语言(包括安全规则、手册、协议和标准操作程序)转化为机器可检查的运行时约束这一中间步骤。我们提出 **LabGuard**(实验室防护罩),这是一套从语言到执行的安全套件,它将自然语言实验室规则转化为可执行规范,并部署为运行时防护罩。LabGuard 包含三个核心组件:**LabGuard-IR**,定义了一种类型化的可执行表示;**LabGuard-Bench**,提供了从203条种子实验室规则扩展而来的812条监督注释;以及 **LabGuard-Grounder**,它将自然语言实验室规则映射到 LabGuard-IR。生成的 IR 实例由 **LabGuard Pipeline** 处理,该管道将它们编译为运行时监控器,并在控制器边界应用。实验表明,LabGuard 能泛化到未见过的实验室规则来源,达到79.4的任务级 F1 分数,并在监控器编译后,将不安全事件从39.5%降至23.8%。在 LabUtopia 中,其运行时监控器与 ACT 集成,在保持任务成功的同时,将干预率控制在0.5%以下。  

LabGuard: 将自然语言实验室规则转化为具身实验室代理的运行时防护罩  
景普杨¹††(同等贡献),冯先继¹,²¹†,郑钊来³¹†,崔哲宣³,欧阳广贤³,江倩³,张帆²,彭敏¹,谢倩倩¹²†(通讯作者),普雷斯拉夫·纳科夫²,谢卓涵²²†  
¹武汉大学 ²MBZUAI ³东北大学  
\{fengxian\.ji, fan\.zhang, preslav\.nakov, zhuohan\.xie\}@mbzuai\.ac\.ae  
zhengzhaolai@cuhk\.edu\.cn, jingpuyang290@gmail\.com, kasakura@outlook\.com  
\{pengm, xieq\}@whu\.edu\.cn, \{202316187, 202219047\}@stu\.neuq\.edu\.cn  

## 1 引言  
随着基础模型、视觉-语言-动作(VLA)模型、模仿学习策略及相关技术的快速发展,具身代理正从简单的操作技能向执行复杂实验室程序迈进。具体来说,VLA 模型 (Brohan et al., 2023; Kim et al., 2024; Black et al., 2026) 增强了机器人从多模态输入生成动作的能力;模仿学习策略,如 ACT (Zhao et al., 2023) 和 Diffusion Policy (Chi et al., 2024),提升了实验室操作技能的学习和执行;而实验室仿真平台和机器人化学系统,如 LabUtopia (Li et al., 2026)、RoboChemist (Zhang et al., 2025) 和 Organa (Darvis et al., 2025; Ji et al., 2026b; Lai et al., 2025; Luo et al., 2026; Yang et al., 2024a, 2025, 2026b; Cui et al., 2026),进一步将科学实验室确立为具身代理的重要评估环境。  
然而,在实验室环境中,任务成功并不一定意味着安全执行,因为代理还必须遵循以自然语言规则、手册、协议和标准操作程序形式呈现的安全知识,涵盖化学兼容性、设备使用、程序顺序和风险干预。  
现有针对实验室具身代理的安全研究分为三条路线。第一,安全基准测试危险识别、风险评估、拒绝不安全指令和安全感知规划,包括 LabSafety Bench、LABSHIELD、SafeAgentBench、VESTABENCH 和 Safe-BeAl (Zhou et al., 2024; Sun et al., 2026; Yin et al., 2025; Sadhu et al., 2025; Huang et al., 2025; Yang et al., 2024b)。第二,决策级方法通过安全感知推理、对齐和约束学习来改进规划器或策略,例如规划代理、风险认知模块、偏好对齐和约束型 VLA 优化 (Khan et al., 2025; Yang et al., 2025)。第三,运行时强制方法使用护栏、可执行谓词、基于代码的监控器或控制约束,在执行过程中阻止、重新规划或限制不安全动作 (Wang et al., 2025b,a; Ames et al., 2019; Ji et al., 2026a)。  
然而,这些工作通常假设安全信息已经形式化。在实验室中,安全知识通常以自然语言形式出现,包括 SOP、手册、化学品处理规则和协议指令。如何将此类文本转化为控制器侧检查的可执行监控器规范,这一问题尚未得到充分刻画。挑战不仅仅是将文本转化为结构化字段,而是要让人类可读的实验室安全知识进入机器人控制回路。这需要一个从实验室自然语言到控制器侧干预的可表示、可学习且可执行的路径,从而引出了三个关键问题。第一,实验室安全语言应如何表示,以便规则能够被控制器激活和检查?第二,模型如何将来自不同来源(包括 SOP、手册、协议和化学品安全声明)的知识映射到类型化可执行表示?第三,如何将生成的表示编译成运行时监控器,在机器人动作前检查实时实验室状态,并在必要时通过、修改或阻止动作?  
见题注图1:LabGuard 概述。自然语言实验室规则被映射到 LabGuard-IR,编译成可执行运行时监控器,并在具身实验室执行期间应用于控制器边界。  
为解决这一问题,我们提出 **LabGuard**,这是一套从语言到执行的安全套件,将实验室自然语言转化为具身实验室代理的运行时防护罩。LabGuard 包含三个核心组件,分别用于可执行表示、监督注释和实验室语言映射。第一,**LabGuard-IR** 定义了一种类型化的可执行表示,指定了运行时监控所需的字段,包括约束类型、实体绑定、动作范围、状态谓词、严重性和干预模式。第二,**LabGuard-Bench** 提供了812条用于训练和评估的监督注释,能够系统评估模型从实验室自然语言中恢复可执行字段的能力。第三,**LabGuard-Grounder** 将自然语言实验室规则映射到 LabGuard-IR,将人类可读的安全知识转化为可编译的结构化规范。生成的 IR 实例随后由 **LabGuard Pipeline** 处理,该管道将它们编译成可执行运行时监控器,并在控制器边界执行这些监控器,根据实时实验室状态,提议的动作可以被通过、修改或阻止。  
实验表明,LabGuard 能泛化到未见过的实验室规则来源,任务级 F1 达到79.4,并在监控器编译后将不安全事件从39.5%降至23.8%。在 LabUtopia 中,其集成 ACT 的监控器将干预率控制在0.5%以下,同时保持任务成功。  
我们的贡献遵循上述可表示、可学习和可执行的路径。第一,我们提出 **LabGuard-IR**,一种类型化表示,通过捕获约束类型、实体绑定、动作范围、状态谓词、严重性和干预模式,使实验室安全语言可被控制器使用。第二,我们构建了 **LabGuard-Bench**,提供从203条种子实验室规则扩展而来的812条监督注释,并引入 **LabGuard-Grounder**,将自然语言实验室规则映射到 LabGuard-IR。第三,我们开发并评估了 **LabGuard Pipeline**,它将映射后的 IR 实例编译成运行时监控器,并与 LabUtopia + ACT 控制集成,以测试危险降低、任务保持和干预开销。

## 2 相关工作  
**基于LLM的具身代理安全**。近期关于基于LLM的具身代理安全的研究,探讨了代理如何识别不安全目标、拒绝危险指令、评估风险或生成安全感知计划 (Yin et al., 2025; Ying et al., 2025; Zhang et al., 2026a)。这些研究通常在指令或规划层面评估安全性,即要求模型在执行前判断目标、指令或提议的计划是否安全。相关方法进一步通过安全感知推理、对齐、约束学习或风险感知规划模块,提高决策级安全性 (Zhang et al., 2026a)。  

**机器人的运行时保证与安全过滤器**。运行时保证和安全过滤方法旨在通过监控状态、过滤动作或在控制器边界强制执行正式约束,来限制执行过程中的不安全行为。经典方法包括控制障碍函数及相关安全过滤器,它们相对于预定义的安全集约束机器人动作 (Ames et al., 2019; Morton and Pavone, 2025; Zhang et al., 2026d,c; Song et al., 2026; Yang et al., 2026a)。最近的具身代理系统也使用可执行谓词、基于代码的监控器、视觉监控器或护栏模块,在执行前检查计划和动作 (Zhou et al., 2025; Wang et al., 2025b,a)。  

**自然语言到可执行系统的接口**。语义解析将自然语言映射到可执行的形式化表示,如 SQL 查询、机器人命令、逻辑形式和 API 调用 (Zelle and Mooney, 1996; Zettlemoyer and Collins, 2005; Tellex et al., 2011; Matuszek et al., 2013)。在科学领域,先前工作从合成程序或实验室协议中提取结构化动作、材料和实验操作 (Mysore et al., 2019; Vaucher et al., 2020)。最近的结构化生成方法进一步通过词汇约束、神经逻辑解码、基于语法的解析和模式约束生成,提高了输出的有效性 (Hokamp and Liu, 2017; Lu et al., 2022; Scholak et al., 2021; Shin et al., 2021; Zhang et al., 2026b)。  

表1:LabGuard-IR 映射示例。实验室规则中的彩色跨度对应用于编译运行时监控器的可执行字段。

## 3 LabGuard  
### 3.1 问题形式化  
实验室安全知识通常以面向人类从业者的自然语言编写,包括 SOP、安全手册、化学品处理规则和协议指令,而运行时机器人控制器需要机器可检查的监控器规范,这些规范能够在执行过程中被激活、评估和强制实施。如图1所示,这需要将文本安全规则(例如化学品不相容指令)转换为类型化的可执行规范,这些规范可以对照当前实验室状态和控制器提议的动作进行检查。  
我们将此形式化为一个实验室语言到监控器的转换问题:  
\[
G_{\theta}(r)=z,\quad E(\mathrm{compile}(z), s_t, a_t)=v_t.
\tag{1}
\]  
其中,\(r\) 表示自然语言实验室规则,\(G_{\theta}\) 表示映射模型,\(z\) 表示预测的可执行安全规范,\(s_t\) 表示实时实验室状态,\(a_t\) 表示控制器提议的动作,\(v_t \in \{\text{pass}, \text{modify}, \text{block}\}\) 表示运行时安全裁决。因此,目标不是生成安全规则的文本解释,而是恢复运行时监控器所需的结构化执行语义。

### 3.2 LabGuard-IR  
我们将 LabGuard-IR 定义为类型化的可执行表示,它作为实验室语言映射的目标,也是运行时监控器编译的输入。它的设计旨在捕获控制器侧安全检查所需的执行语义,而不仅仅是自然语言描述规则。  
给定自然语言实验室规则 \(r \in \mathcal{R}\),LabGuard-IR 将映射后的可执行规范表示为:
\[
z=(\hat{t},\hat{S},\hat{p},\hat{T},\hat{v},\hat{i}).
\tag{2}
\]  
其中,\(\hat{t}\) 表示约束类型,\(\hat{S}\) 表示物质或实体集合,\(\hat{p}\) 表示状态或动作谓词,\(\hat{T}\) 表示动作范围,\(\hat{v}\) 表示严重级别,\(\hat{i}\) 表示干预模式。表1提供了该表示的字段级示例,对应于图1(b)中的类型化可执行视图。这些字段共同使映射后的规则可执行:  
- \(\hat{t}\) 选择要应用的安全逻辑,例如不相容性、温度、设备或顺序检查。  
- \(\hat{S}\) 将文本提及映射到可在环境中跟踪的具体实验室实体。  
- \(\hat{p}\) 定义针对实时状态或提议动作评估的条件。  
- \(\hat{T}\) 仅对相关的控制器动作激活规则。

相似文章

具备潜在推理能力的鲁棒高效护栏

arXiv cs.AI

CoLaGuard 是一种新型护栏模型,它将多步安全推理转移到连续潜在空间中,与显式推理基线相比,实现了 12.9 倍的加速和 22.4 倍的 Token 缩减,同时在十个安全基准上匹配宏 F1 性能。

OSGuard:计算机使用代理安全基准测试

arXiv cs.AI

OSGuard是一个双粒度基准测试,用于在良性用户指令下评估计算机使用代理的安全性,包含动作级判断和风险增强执行套件,以检测不安全捷径。