LabGuard：将自然语言实验室规则转化为具身实验室代理的运行时防护

arXiv cs.AI 2026/07/01 04:00 论文

摘要

LabGuard 引入了一个框架，将自然语言实验室安全规则转化为具身代理的可执行运行时监控器，在不影响任务成功率的情况下，将不安全事件从 39.5% 降至 23.8%。

arXiv:2606.31045v1 公告类型：新摘要：科学具身代理执行实验室程序的能力日益增强，但在动态实验室环境中安全执行这些程序仍然具有挑战性。当前的安全方法通常忽略了将实验室自然语言（包括安全规则、手册、协议和标准操作程序）转化为机器可检查的运行时约束这一中间步骤。我们提出了 LabGuard（实验室防护），这是一个从语言到执行的安全套件，它将自然语言实验室规则转化为可执行的规范，并将其部署为运行时防护。LabGuard 包含三个核心组件：LabGuard-IR，定义了一种类型化的可执行表示；LabGuard-Bench，提供了从203条种子实验室规则扩展而来的812个监督标注；以及 LabGuard-Grounder，将自然语言实验室规则映射到 LabGuard-IR。生成的 IR 实例由 LabGuard 流水线处理，该流水线将其编译为运行时监控器，并应用于控制器边界。实验表明，LabGuard 能够泛化到未见过的实验室规则来源，任务范围 F1 达到79.4，并且在监控器编译后将不安全事件从39.5%降至23.8%。在 LabUtopia 中，其运行时监控器与 ACT 集成，将干预率保持在0.5%以下，同时保持任务成功率。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:36

# 将自然语言实验室规则转化为具身实验室代理的运行时防护罩  
来源：https://arxiv.org/html/2606.31045  
景普杨¹，冯先继¹,²¹†，来郑钊³¹†，崔哲宣³，欧阳广贤³，江倩³，张帆²，彭敏¹，谢倩倩¹²†，普雷斯拉夫·纳科夫²，谢卓涵²²†  
¹武汉大学 ²MBZUAI ³东北大学  
\{fengxian\.ji, fan\.zhang, preslav\.nakov, zhuohan\.xie\}@mbzuai\.ac\.ae  
zhengzhaolai@cuhk\.edu\.cn, jingpuyang290@gmail\.com, kasakura@outlook\.com  
\{pengm, xieq\}@whu\.edu\.cn, \{202316187, 202219047\}@stu\.neuq\.edu\.cn  

###### 摘要  
科学具身代理越来越能够执行实验室程序，但在动态实验室环境中安全执行这些程序仍然具有挑战性。当前的安全方法常常忽略了将实验室自然语言（包括安全规则、手册、协议和标准操作程序）转化为机器可检查的运行时约束这一中间步骤。我们提出 **LabGuard**（实验室防护罩），这是一套从语言到执行的安全套件，它将自然语言实验室规则转化为可执行规范，并部署为运行时防护罩。LabGuard 包含三个核心组件：**LabGuard-IR**，定义了一种类型化的可执行表示；**LabGuard-Bench**，提供了从203条种子实验室规则扩展而来的812条监督注释；以及 **LabGuard-Grounder**，它将自然语言实验室规则映射到 LabGuard-IR。生成的 IR 实例由 **LabGuard Pipeline** 处理，该管道将它们编译为运行时监控器，并在控制器边界应用。实验表明，LabGuard 能泛化到未见过的实验室规则来源，达到79.4的任务级 F1 分数，并在监控器编译后，将不安全事件从39.5%降至23.8%。在 LabUtopia 中，其运行时监控器与 ACT 集成，在保持任务成功的同时，将干预率控制在0.5%以下。  

LabGuard: 将自然语言实验室规则转化为具身实验室代理的运行时防护罩  
景普杨¹††（同等贡献），冯先继¹,²¹†，郑钊来³¹†，崔哲宣³，欧阳广贤³，江倩³，张帆²，彭敏¹，谢倩倩¹²†（通讯作者），普雷斯拉夫·纳科夫²，谢卓涵²²†  
¹武汉大学 ²MBZUAI ³东北大学  
\{fengxian\.ji, fan\.zhang, preslav\.nakov, zhuohan\.xie\}@mbzuai\.ac\.ae  
zhengzhaolai@cuhk\.edu\.cn, jingpuyang290@gmail\.com, kasakura@outlook\.com  
\{pengm, xieq\}@whu\.edu\.cn, \{202316187, 202219047\}@stu\.neuq\.edu\.cn  

## 1 引言  
随着基础模型、视觉-语言-动作(VLA)模型、模仿学习策略及相关技术的快速发展，具身代理正从简单的操作技能向执行复杂实验室程序迈进。具体来说，VLA 模型 (Brohan et al., 2023; Kim et al., 2024; Black et al., 2026) 增强了机器人从多模态输入生成动作的能力；模仿学习策略，如 ACT (Zhao et al., 2023) 和 Diffusion Policy (Chi et al., 2024)，提升了实验室操作技能的学习和执行；而实验室仿真平台和机器人化学系统，如 LabUtopia (Li et al., 2026)、RoboChemist (Zhang et al., 2025) 和 Organa (Darvis et al., 2025; Ji et al., 2026b; Lai et al., 2025; Luo et al., 2026; Yang et al., 2024a, 2025, 2026b; Cui et al., 2026)，进一步将科学实验室确立为具身代理的重要评估环境。  
然而，在实验室环境中，任务成功并不一定意味着安全执行，因为代理还必须遵循以自然语言规则、手册、协议和标准操作程序形式呈现的安全知识，涵盖化学兼容性、设备使用、程序顺序和风险干预。  
现有针对实验室具身代理的安全研究分为三条路线。第一，安全基准测试危险识别、风险评估、拒绝不安全指令和安全感知规划，包括 LabSafety Bench、LABSHIELD、SafeAgentBench、VESTABENCH 和 Safe-BeAl (Zhou et al., 2024; Sun et al., 2026; Yin et al., 2025; Sadhu et al., 2025; Huang et al., 2025; Yang et al., 2024b)。第二，决策级方法通过安全感知推理、对齐和约束学习来改进规划器或策略，例如规划代理、风险认知模块、偏好对齐和约束型 VLA 优化 (Khan et al., 2025; Yang et al., 2025)。第三，运行时强制方法使用护栏、可执行谓词、基于代码的监控器或控制约束，在执行过程中阻止、重新规划或限制不安全动作 (Wang et al., 2025b,a; Ames et al., 2019; Ji et al., 2026a)。  
然而，这些工作通常假设安全信息已经形式化。在实验室中，安全知识通常以自然语言形式出现，包括 SOP、手册、化学品处理规则和协议指令。如何将此类文本转化为控制器侧检查的可执行监控器规范，这一问题尚未得到充分刻画。挑战不仅仅是将文本转化为结构化字段，而是要让人类可读的实验室安全知识进入机器人控制回路。这需要一个从实验室自然语言到控制器侧干预的可表示、可学习且可执行的路径，从而引出了三个关键问题。第一，实验室安全语言应如何表示，以便规则能够被控制器激活和检查？第二，模型如何将来自不同来源（包括 SOP、手册、协议和化学品安全声明）的知识映射到类型化可执行表示？第三，如何将生成的表示编译成运行时监控器，在机器人动作前检查实时实验室状态，并在必要时通过、修改或阻止动作？  
见题注图1：LabGuard 概述。自然语言实验室规则被映射到 LabGuard-IR，编译成可执行运行时监控器，并在具身实验室执行期间应用于控制器边界。  
为解决这一问题，我们提出 **LabGuard**，这是一套从语言到执行的安全套件，将实验室自然语言转化为具身实验室代理的运行时防护罩。LabGuard 包含三个核心组件，分别用于可执行表示、监督注释和实验室语言映射。第一，**LabGuard-IR** 定义了一种类型化的可执行表示，指定了运行时监控所需的字段，包括约束类型、实体绑定、动作范围、状态谓词、严重性和干预模式。第二，**LabGuard-Bench** 提供了812条用于训练和评估的监督注释，能够系统评估模型从实验室自然语言中恢复可执行字段的能力。第三，**LabGuard-Grounder** 将自然语言实验室规则映射到 LabGuard-IR，将人类可读的安全知识转化为可编译的结构化规范。生成的 IR 实例随后由 **LabGuard Pipeline** 处理，该管道将它们编译成可执行运行时监控器，并在控制器边界执行这些监控器，根据实时实验室状态，提议的动作可以被通过、修改或阻止。  
实验表明，LabGuard 能泛化到未见过的实验室规则来源，任务级 F1 达到79.4，并在监控器编译后将不安全事件从39.5%降至23.8%。在 LabUtopia 中，其集成 ACT 的监控器将干预率控制在0.5%以下，同时保持任务成功。  
我们的贡献遵循上述可表示、可学习和可执行的路径。第一，我们提出 **LabGuard-IR**，一种类型化表示，通过捕获约束类型、实体绑定、动作范围、状态谓词、严重性和干预模式，使实验室安全语言可被控制器使用。第二，我们构建了 **LabGuard-Bench**，提供从203条种子实验室规则扩展而来的812条监督注释，并引入 **LabGuard-Grounder**，将自然语言实验室规则映射到 LabGuard-IR。第三，我们开发并评估了 **LabGuard Pipeline**，它将映射后的 IR 实例编译成运行时监控器，并与 LabUtopia + ACT 控制集成，以测试危险降低、任务保持和干预开销。

## 2 相关工作  
**基于LLM的具身代理安全**。近期关于基于LLM的具身代理安全的研究，探讨了代理如何识别不安全目标、拒绝危险指令、评估风险或生成安全感知计划 (Yin et al., 2025; Ying et al., 2025; Zhang et al., 2026a)。这些研究通常在指令或规划层面评估安全性，即要求模型在执行前判断目标、指令或提议的计划是否安全。相关方法进一步通过安全感知推理、对齐、约束学习或风险感知规划模块，提高决策级安全性 (Zhang et al., 2026a)。  

**机器人的运行时保证与安全过滤器**。运行时保证和安全过滤方法旨在通过监控状态、过滤动作或在控制器边界强制执行正式约束，来限制执行过程中的不安全行为。经典方法包括控制障碍函数及相关安全过滤器，它们相对于预定义的安全集约束机器人动作 (Ames et al., 2019; Morton and Pavone, 2025; Zhang et al., 2026d,c; Song et al., 2026; Yang et al., 2026a)。最近的具身代理系统也使用可执行谓词、基于代码的监控器、视觉监控器或护栏模块，在执行前检查计划和动作 (Zhou et al., 2025; Wang et al., 2025b,a)。  

**自然语言到可执行系统的接口**。语义解析将自然语言映射到可执行的形式化表示，如 SQL 查询、机器人命令、逻辑形式和 API 调用 (Zelle and Mooney, 1996; Zettlemoyer and Collins, 2005; Tellex et al., 2011; Matuszek et al., 2013)。在科学领域，先前工作从合成程序或实验室协议中提取结构化动作、材料和实验操作 (Mysore et al., 2019; Vaucher et al., 2020)。最近的结构化生成方法进一步通过词汇约束、神经逻辑解码、基于语法的解析和模式约束生成，提高了输出的有效性 (Hokamp and Liu, 2017; Lu et al., 2022; Scholak et al., 2021; Shin et al., 2021; Zhang et al., 2026b)。  

表1：LabGuard-IR 映射示例。实验室规则中的彩色跨度对应用于编译运行时监控器的可执行字段。

## 3 LabGuard  
### 3.1 问题形式化  
实验室安全知识通常以面向人类从业者的自然语言编写，包括 SOP、安全手册、化学品处理规则和协议指令，而运行时机器人控制器需要机器可检查的监控器规范，这些规范能够在执行过程中被激活、评估和强制实施。如图1所示，这需要将文本安全规则（例如化学品不相容指令）转换为类型化的可执行规范，这些规范可以对照当前实验室状态和控制器提议的动作进行检查。  
我们将此形式化为一个实验室语言到监控器的转换问题：  
\[
G_{\theta}(r)=z,\quad E(\mathrm{compile}(z), s_t, a_t)=v_t.
\tag{1}
\]  
其中，\(r\) 表示自然语言实验室规则，\(G_{\theta}\) 表示映射模型，\(z\) 表示预测的可执行安全规范，\(s_t\) 表示实时实验室状态，\(a_t\) 表示控制器提议的动作，\(v_t \in \{\text{pass}, \text{modify}, \text{block}\}\) 表示运行时安全裁决。因此，目标不是生成安全规则的文本解释，而是恢复运行时监控器所需的结构化执行语义。

### 3.2 LabGuard-IR  
我们将 LabGuard-IR 定义为类型化的可执行表示，它作为实验室语言映射的目标，也是运行时监控器编译的输入。它的设计旨在捕获控制器侧安全检查所需的执行语义，而不仅仅是自然语言描述规则。  
给定自然语言实验室规则 \(r \in \mathcal{R}\)，LabGuard-IR 将映射后的可执行规范表示为：
\[
z=(\hat{t},\hat{S},\hat{p},\hat{T},\hat{v},\hat{i}).
\tag{2}
\]  
其中，\(\hat{t}\) 表示约束类型，\(\hat{S}\) 表示物质或实体集合，\(\hat{p}\) 表示状态或动作谓词，\(\hat{T}\) 表示动作范围，\(\hat{v}\) 表示严重级别，\(\hat{i}\) 表示干预模式。表1提供了该表示的字段级示例，对应于图1(b)中的类型化可执行视图。这些字段共同使映射后的规则可执行：  
- \(\hat{t}\) 选择要应用的安全逻辑，例如不相容性、温度、设备或顺序检查。  
- \(\hat{S}\) 将文本提及映射到可在环境中跟踪的具体实验室实体。  
- \(\hat{p}\) 定义针对实时状态或提议动作评估的条件。  
- \(\hat{T}\) 仅对相关的控制器动作激活规则。

LabGuard：将自然语言实验室规则转化为具身实验室代理的运行时防护

相似文章

PolicyGuard：面向LLM代理政策遵从性的对话基础子代理验证器

具备潜在推理能力的鲁棒高效护栏

SABER：在具有状态的项目工作空间中评估LLM编码代理的操作安全性基准

SafeHarbor：面向LLM代理安全的分层记忆增强护栏

OSGuard：计算机使用代理安全基准测试

提交意见反馈