碰撞前的预见:基于冻结视觉语言模型的预测性安全强化学习

arXiv cs.LG 论文

摘要

本文提出VLM-Safe-RL框架,该框架将冻结的视觉语言模型集成到约束MDP的拉格朗日更新中,为高速视觉控制任务的安全强化学习提供预测性成本信号。该方法在Safety-Gymnasium FormulaOne L2上优于标准约束感知基线,并能泛化到未见过的环境。

arXiv:2606.11266v1 Announce Type: new Abstract: 约束强化学习算法优化的成本信号几乎总是被动的:模拟器仅在碰撞开始后才会发出非零成本,而PPO-Lagrangian的拉格朗日乘数仅在回合预算超出后才会增长。在比赛速度下,碰撞是瞬时且不可逆的,任何等待成本累积的安全机制在结构上都为时已晚。我们提出VLM-Safe-RL框架,该框架将冻结的视觉语言模型作为预测性成本项集成到CMDP的拉格朗日更新中。该框架包含四个贡献:(i) 解耦双路径CLIP,独立的奖励/成本路径,尊重CMDP的分解;(ii) VLM-Lagrange,一种增强的乘数更新,将每步VLM成本作为预测项;(iii) 置信门控,基于CLIP边际的逻辑噪声模型导出的贝叶斯最优权重;(iv) VLMPPOLag,组合算法。在Safety-Gymnasium FormulaOne L2上,我们的主要评估($n{=}5$个种子,$10^{6}$步,预算$d_{\text{lim}}{=}25$)中,VLMPPOLag$+$Conf是我们在默认预算比较中唯一同时保持实质性回报($J_r{\approx}40$)并在多数种子上将成本控制在预算内的配置;五个约束感知基线(PPOLag, CPO, CPPOPID, CPO-CLG, PPOLag-RND)各自至少未能满足一个要求。该机制泛化到未见过的MetaDrive Medium(灾难率$41\%{\to}26\%$,95\%自举置信区间$[-26,-5]$个百分点),并显示出方向一致地迁移到Bullet Safety-Gym;我们诚实地报告了它不适用的情况(MetaDrive Easy/Hard, Qwen2-VL骨干网络),并将Hard失败归因于拉格朗日调节的病理现象,而非VLM信号本身。据我们所知,这是首个在CMDP拉格朗日更新中使用冻结VLM信号作为预测性成本项的工作。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:45

# 基于冻结视觉-语言模型的预期安全强化学习 来源:https://arxiv.org/html/2606.11266

## 在碰撞前预见:基于冻结视觉-语言模型的预期安全强化学习

Samuel Tetteh & Cody Fleming  
爱荷华州立大学  
艾姆斯,爱荷华州,美国  
{samtett, flemingc}@iastate.edu  

###### 摘要

约束强化学习算法所优化的成本信号几乎总是*反应式*的:仿真器仅在碰撞*开始后*才发出非零成本,而PPO-Lagrangian的拉格朗日乘子仅在回合预算超支后才增长。在赛道速度下,碰撞是瞬时且不可逆的,任何等待成本累积的安全机制在结构上都为时已晚。我们提出VLM-Safe-RL,一个将冻结的视觉-语言模型作为*预期*成本项集成到CMDP拉格朗日更新中的框架。该框架包含四个贡献:(i) **解耦双路径CLIP**,独立的奖励/成本路径,尊重CMDP的r ⟂ c分解;(ii) **VLMLagrange**,一个增强型乘子更新λ ← λ + η₁(J_C - d) + η₂(̄c_vlm - τ),引入每步VLM成本作为预期项;(iii) **置信度门控**,一个贝叶斯最优权重κ = |2σ(s(m - c)) - 1|,基于CLIP间隔的逻辑噪声模型推导得出;(iv) **VLMPPOLag**,组合后的算法。在Safety-Gymnasium FormulaOne L2上,我们的主要评估(n=5个种子,10^6步,预算d=25)中,VLMPPOLag++Conf是默认预算比较中唯一同时保留实质性回报(J_R ≈ 40)且在多数种子上成本保持在预算内的配置;五个约束感知基线(PPOLag, CPO, CPPOPID, CPO-CLG, PPOLag-RND)各自至少失败一项要求。该机制泛化到保留的MetaDrive Medium(灾难率41%→26%,95%自助法CI[-26, -5]个百分点)并向Bullet Safety-Gym展示方向一致的迁移;我们诚实地报告了其*不*泛化的情况(MetaDrive Easy/Hard, Qwen2-VL骨干网络),并将Hard失败追溯到拉格朗日正则化病理而非VLM信号本身。据我们所知,这是首个将冻结VLM信号作为CMDP拉格朗日更新中的预期成本项的工作。

## 1 引言

高速视觉控制中的安全强化学习存在一个基本矛盾:智能体必须接近性能极限,同时严格避免灾难性失败——这一设置由约束马尔可夫决策过程(CMDP)框架形式化[5](https://arxiv.org/html/2606.11266#bib.bib17)。然而,标准CMDP求解器可用的成本信号几乎普遍是*反应式*的:仿真器仅在碰撞*开始后*才发出非零成本,而PPO-Lagrangian的乘子λ[42](https://arxiv.org/html/2606.11266#bib.bib20)仅在回合预算超支后才增长。在赛道速度下,接触是瞬时且不可逆的,这种滞后是结构性的。

视觉-语言模型[36](https://arxiv.org/html/2606.11266#bib.bib1)编码了关于安全和不安全状态的丰富语义先验。自然语言描述“赛车即将撞上护栏”捕捉了即将发生危险的视觉特征,而手工特征需要精心工程才能检测。现有的VLM+RL范式要么在大规模演示集上微调数十亿参数的视觉-语言-动作模型[8](https://arxiv.org/html/2606.11266#bib.bib14),[14](https://arxiv.org/html/2606.11266#bib.bib15),[49](https://arxiv.org/html/2606.11266#bib.bib16),要么使用冻结的VLM作为辅助奖励塑造器[16](https://arxiv.org/html/2606.11266#bib.bib6),[28](https://arxiv.org/html/2606.11266#bib.bib7),[37](https://arxiv.org/html/2606.11266#bib.bib10),[23](https://arxiv.org/html/2606.11266#bib.bib11)。这两种方法都没有将安全作为硬约束处理。奖励塑造方法将安全视为隐性惩罚,VLM-RL[23](https://arxiv.org/html/2606.11266#bib.bib11)进一步通过对比语言目标(CLG)范式在共享单纯形上耦合奖励和安全分数;SafeVLA[49](https://arxiv.org/html/2606.11266#bib.bib16)添加了CMDP目标,但需要77B+参数和约800K演示。

#### ***核心洞察*。** 冻结的CLIP可以在实际碰撞*之前*检测到视觉危险信号。通过拉格朗日乘子更新路由,这种前瞻性信息实现了*预期*约束满足,这与之前将VLM输出视为无状态奖励奖励的VLM+RL方法有本质区别。

#### ***贡献*。** 我们提出VLM-Safe-RL:
1. 1. **解耦双路径CLIP**(§3):用于r_vlm和c_vlm的两个独立余弦路径,消除了耦合softmax的反相关伪影。
2. 2. **VLMLagrange**(§3):一个增强型乘子更新,包含一个每步CLIP导出的预期项,在碰撞累积前收紧λ。
3. 3. **置信度门控**(§3):一个贝叶斯最优权重κ_t,从CLIP间隔的逻辑噪声模型中封闭形式推导得出,并具有从随机策略帧缓冲区估计的校准工作点。
4. 4. **VLMPPOLag**:组合后的算法,在OmniSafe[26](https://arxiv.org/html/2606.11266#bib.bib28)中注册为一类算法。

我们在Safety-Gymnasium FormulaOne[25](https://arxiv.org/html/2606.11266#bib.bib27) L0/L1/L2(10种方法×3个等级,3-5个种子;90+次训练运行)以及两个泛化基准Bullet Safety-Gym SafetyCarReach-v0和MetaDrive[29](https://arxiv.org/html/2606.11266#bib.bib34) Easy/Medium/Hard上进行评估,保留的种子与训练不相交。压缩贡献:VLMPPOLag++Conf是唯一一个在FormulaOne L2上实现实质性回报且成本在预算内的约束感知配置,并且该机制转移到密集交通环境(保留的MetaDrive Medium上灾难率-15个百分点,自助法CI排除零)。我们还记录了一个先前未报告的MetaDrive场景采样器混叠问题,该问题会掩盖任何保留的安全改进(附录B.3)。

参见图注  
图1:来自冻结VLM的预期安全性。*(a)* 在一次FormulaOne L2 rollout中,每步CLIP危险信号c_vlm(绿色)在环境成本(红色)之前数个时间步上升。拉格朗日乘子λ在*epoch之间*使用epoch均值̄c_vlm通过公式(3)更新;每步轨迹展示了该均值累积的信号。*(b)* 保留的MetaDrive Medium:该机制将灾难率从41%降低到26%(-15个百分点;自助法95% CI[-26, -5]个百分点,n=100个保留episode)。

## 2 相关工作

**用于机器人技术和奖励塑造的VLM。** VLM已被用于任务规划和具身接地[4](https://arxiv.org/html/2606.11266#bib.bib13),[22](https://arxiv.org/html/2606.11266#bib.bib12)以及端到端视觉-语言-动作模型[8](https://arxiv.org/html/2606.11266#bib.bib14),[14](https://arxiv.org/html/2606.11266#bib.bib15),[31](https://arxiv.org/html/2606.11266#bib.bib3),[44](https://arxiv.org/html/2606.11266#bib.bib5),[49](https://arxiv.org/html/2606.11266#bib.bib16)。基于经典奖励塑造基础[34](https://arxiv.org/html/2606.11266#bib.bib33),近期工作使用冻结的VLM作为辅助信号[16](https://arxiv.org/html/2606.11266#bib.bib6),[28](https://arxiv.org/html/2606.11266#bib.bib7),[45](https://arxiv.org/html/2606.11266#bib.bib8),[32](https://arxiv.org/html/2606.11266#bib.bib9),[37](https://arxiv.org/html/2606.11266#bib.bib10)。它们都没有施加硬安全约束。VLM-RL[23](https://arxiv.org/html/2606.11266#bib.bib11)是最接近的先前工作,引入了*对比语言目标(CLG)-作为-奖励*范式,正负自然语言目标由冻结的CLIP评分,并通过耦合的softmax组合,该softmax在无约束SAC[20](https://arxiv.org/html/2606.11266#bib.bib32)下反相关奖励和安全通道。我们从[23](https://arxiv.org/html/2606.11266#bib.bib11)中采用了CLG术语,但在CMDP框架内使用解耦路径和预期乘子更新(表3)。

**安全强化学习。** 强化学习中硬约束的经典动机[6](https://arxiv.org/html/2606.11266#bib.bib38),[40](https://arxiv.org/html/2606.11266#bib.bib37),[17](https://arxiv.org/html/2606.11266#bib.bib25),[9](https://arxiv.org/html/2606.11266#bib.bib26)]产生了一系列CMDP求解器:CPO[2](https://arxiv.org/html/2606.11266#bib.bib18), PPO-Lagrangian[42](https://arxiv.org/html/2606.11266#bib.bib20), FOCOPS[51](https://arxiv.org/html/2606.11266#bib.bib21), PCPO[48](https://arxiv.org/html/2606.11266#bib.bib22), 和CUP[47](https://arxiv.org/html/2606.11266#bib.bib23),并通过Safety-Gymnasium[25](https://arxiv.org/html/2606.11266#bib.bib27),[43](https://arxiv.org/html/2606.11266#bib.bib36)]和OmniSafe[26](https://arxiv.org/html/2606.11266#bib.bib28)]进行评估。PID-Lagrangian[42](https://arxiv.org/html/2606.11266#bib.bib20), CRPO[46](https://arxiv.org/html/2606.11266#bib.bib45)]和Sauté-RL[41](https://arxiv.org/html/2606.11266#bib.bib46)]修改了拉格朗日动力学本身;我们的预期η₂(̄c_vlm - τ)项是正交的,因为它注入了一个新的*前瞻性*信号,该信号来自冻结的VLM,并且可以与其中任意一个结合。

深度强化学习中的可重复性问题[21](https://arxiv.org/html/2606.11266#bib.bib41),[3](https://arxiv.org/html/2606.11266#bib.bib42)]促使我们使用5,000次重采样的自助法置信区间和预注册的单侧置换检验。

**VLM作为零样本场景分类器。** 一个互补的方向将冻结的VLM视为独立训练的策略之上的循环外分类器:动作屏蔽[11](https://arxiv.org/html/2606.11266#bib.bib49)、事后异常检测[24](https://arxiv.org/html/2606.11266#bib.bib47),[33](https://arxiv.org/html/2606.11266#bib.bib52)]和语言条件场景标记[38](https://arxiv.org/html/2606.11266#bib.bib48),[37](https://arxiv.org/html/2606.11266#bib.bib10)]。我们的工作使每步VLM输出成为策略本身所解决的约束优化问题的一等公民。

## 3 VLM-Safe-RL:方法

一个CMDP是一个元组(S, A, P, r, c, d, γ)[5](https://arxiv.org/html/2606.11266#bib.bib17);安全强化学习目标
π^⋆ = arg max_π J_R(π)  s.t.  J_C(π) ≤ d,   (1)
由PPO-Lagrangian[42](https://arxiv.org/html/2606.11266#bib.bib20)]通过更新
λ ← λ + η₁(J_C - d)
求解,该更新严格是*向后看的*。

我们在Safety-Gymnasium FormulaOne赛车仿真器[25](https://arxiv.org/html/2606.11266#bib.bib27)]上实例化该框架:一个冻结的CLIP ViT-B/32[36](https://arxiv.org/html/2606.11266#bib.bib1),[13](https://arxiv.org/html/2606.11266#bib.bib2)]在每个控制步骤接收256×256 RGB帧以及本体感觉观测s_t ∈ R^64;成本是关于屏障接触的二元信号,预算d=25在T=1000步内。

**贡献1:解耦双路径CLIP。** 先前工作[23](https://arxiv.org/html/2606.11266#bib.bib11),[37](https://arxiv.org/html/2606.11266#bib.bib10)]使用正负提示logits上的耦合softmax,迫使r_vlm + c_vlm ≈ 1。这对于CMDP是错误的,因为奖励和成本在定义上是独立的对象。我们解耦为两个余弦相似度路径,归一化到[0,1]:
r_vlm(o) = (1/N) Σ_{n=1}^N (sim(f_I(o), F⁺_n) + 1)/2,
c_vlm(o) = (1/N) Σ_{n=1}^N (sim(f_I(o), F⁻_n) + 1)/2.   (2)
文本特征F^±一次性编码并缓存;每步成本是一次图像编码加一个小点积(附录A)。

**贡献2:VLMLagrange(预期乘子)。** 令̄c_vlm = (1/T) Σ_t c_vlm(o_t) 且τ ∈ [0,1]为危险阈值。我们在标准更新中加入一个每步CLIP导出的预期项:
λ ← λ + η₁(J_C - d) + η₂(̄c_vlm - τ)   (3)
其中第一项是标准(向后)项,第二项是VLM(向前)项。η₂=0恢复原始PPO-Lagrangian,提供了对预期贡献的清晰消融。直觉很直接:当赛车*接近*屏障时,c_vlm(o_t)升高,因此̄c_vlm在一个epoch内累积碰撞前的危险证据,λ在早期训练中上升得更快,给约束在高成本探索阶段一个先发优势。实现方式:通过spec_log子类化OmniSafe的Lagrange;PPO损失不变。

**贡献3:置信度门控。** CLIP在视觉多样状态下的可靠性并不均匀。遵循二元分类器的标准逻辑噪声处理[35](https://arxiv.org/html/2606.11266#bib.bib50),[19](https://arxiv.org/html/2606.11266#bib.bib51)],将帧o_t危险的概率建模为
Pr(y_t = 1 | m_t) = σ(s(m_t - c))
其中CLIP组间隔 m_t ≡ m_t⁺ - m_t⁻。在无信息先验下方差最小化的融合权重是贝叶斯后验间隔:
κ_t = |2σ(s(m_t - c)) - 1| ∈ [0,1],
λ_r^eff = κ_t λ_r,  λ_c^eff = κ_t λ_c.   (4)
决定性帧(κ_t → 1)让信号通过;模糊帧(κ_t → 0)抑制信号。超参数(s,c)可以从目标环境中B帧随机策略缓冲区B获得封闭形式的最大似然估计:
ĉ = median(B),  ŝ = (1/IQR(B)) log((1 + κ^⋆) / (1 - κ^⋆)),   (5)
其中κ^⋆是+1 IQR处的目标门控值(参见附录F.1的推导,以及附录F中先验对称与校准的消融;L2分类结论对选择不变)。经验间隔分布是集中的。

相似文章

通过自适应安全约束实现非平稳环境下的安全持续强化学习

arXiv cs.LG

提出LILAC+框架,用于非平稳环境下的安全持续强化学习,该框架采用三种自适应安全机制:基于上下文的安全约束、适应速度约束和预算到状态的安全执行。在模拟驾驶环境中的评估表明,在分布偏移下,该框架减少了安全违规,同时保持了竞争性的性能。

揭示VLM可解释的故障模式

arXiv cs.AI

本文介绍了Revelio,这是一个通过搜索离散概念组合来系统性地发现视觉语言模型(VLM)中可解释故障模式的框架。应用于自动驾驶和室内机器人领域,它揭示了此前未报道的、可能导致碰撞或安全危险的漏洞。