碰撞前的预见：基于冻结视觉语言模型的预测性安全强化学习

arXiv cs.LG 2026/06/11 04:00 论文

safe-rl vision-language-models constrained-mdps anticipatory-cost clip reinforcement-learning self-driving

摘要

本文提出VLM-Safe-RL框架，该框架将冻结的视觉语言模型集成到约束MDP的拉格朗日更新中，为高速视觉控制任务的安全强化学习提供预测性成本信号。该方法在Safety-Gymnasium FormulaOne L2上优于标准约束感知基线，并能泛化到未见过的环境。

arXiv:2606.11266v1 Announce Type: new Abstract: 约束强化学习算法优化的成本信号几乎总是被动的：模拟器仅在碰撞开始后才会发出非零成本，而PPO-Lagrangian的拉格朗日乘数仅在回合预算超出后才会增长。在比赛速度下，碰撞是瞬时且不可逆的，任何等待成本累积的安全机制在结构上都为时已晚。我们提出VLM-Safe-RL框架，该框架将冻结的视觉语言模型作为预测性成本项集成到CMDP的拉格朗日更新中。该框架包含四个贡献：(i) 解耦双路径CLIP，独立的奖励/成本路径，尊重CMDP的分解；(ii) VLM-Lagrange，一种增强的乘数更新，将每步VLM成本作为预测项；(iii) 置信门控，基于CLIP边际的逻辑噪声模型导出的贝叶斯最优权重；(iv) VLMPPOLag，组合算法。在Safety-Gymnasium FormulaOne L2上，我们的主要评估（$n{=}5$个种子，$10^{6}$步，预算$d_{\text{lim}}{=}25$）中，VLMPPOLag$+$Conf是我们在默认预算比较中唯一同时保持实质性回报（$J_r{\approx}40$）并在多数种子上将成本控制在预算内的配置；五个约束感知基线（PPOLag, CPO, CPPOPID, CPO-CLG, PPOLag-RND）各自至少未能满足一个要求。该机制泛化到未见过的MetaDrive Medium（灾难率$41\%{\to}26\%$，95\%自举置信区间$[-26,-5]$个百分点），并显示出方向一致地迁移到Bullet Safety-Gym；我们诚实地报告了它不适用的情况（MetaDrive Easy/Hard, Qwen2-VL骨干网络），并将Hard失败归因于拉格朗日调节的病理现象，而非VLM信号本身。据我们所知，这是首个在CMDP拉格朗日更新中使用冻结VLM信号作为预测性成本项的工作。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:45

# 基于冻结视觉-语言模型的预期安全强化学习 来源：https://arxiv.org/html/2606.11266

## 在碰撞前预见：基于冻结视觉-语言模型的预期安全强化学习

Samuel Tetteh & Cody Fleming  
爱荷华州立大学  
艾姆斯，爱荷华州，美国  
{samtett, flemingc}@iastate.edu  

###### 摘要

约束强化学习算法所优化的成本信号几乎总是*反应式*的：仿真器仅在碰撞*开始后*才发出非零成本，而PPO-Lagrangian的拉格朗日乘子仅在回合预算超支后才增长。在赛道速度下，碰撞是瞬时且不可逆的，任何等待成本累积的安全机制在结构上都为时已晚。我们提出VLM-Safe-RL，一个将冻结的视觉-语言模型作为*预期*成本项集成到CMDP拉格朗日更新中的框架。该框架包含四个贡献：(i) **解耦双路径CLIP**，独立的奖励/成本路径，尊重CMDP的r ⟂ c分解；(ii) **VLMLagrange**，一个增强型乘子更新λ ← λ + η₁(J_C - d) + η₂(̄c_vlm - τ)，引入每步VLM成本作为预期项；(iii) **置信度门控**，一个贝叶斯最优权重κ = |2σ(s(m - c)) - 1|，基于CLIP间隔的逻辑噪声模型推导得出；(iv) **VLMPPOLag**，组合后的算法。在Safety-Gymnasium FormulaOne L2上，我们的主要评估（n=5个种子，10^6步，预算d=25）中，VLMPPOLag++Conf是默认预算比较中唯一同时保留实质性回报（J_R ≈ 40）且在多数种子上成本保持在预算内的配置；五个约束感知基线（PPOLag, CPO, CPPOPID, CPO-CLG, PPOLag-RND）各自至少失败一项要求。该机制泛化到保留的MetaDrive Medium（灾难率41%→26%，95%自助法CI[-26, -5]个百分点）并向Bullet Safety-Gym展示方向一致的迁移；我们诚实地报告了其*不*泛化的情况（MetaDrive Easy/Hard, Qwen2-VL骨干网络），并将Hard失败追溯到拉格朗日正则化病理而非VLM信号本身。据我们所知，这是首个将冻结VLM信号作为CMDP拉格朗日更新中的预期成本项的工作。

## 1 引言

高速视觉控制中的安全强化学习存在一个基本矛盾：智能体必须接近性能极限，同时严格避免灾难性失败——这一设置由约束马尔可夫决策过程（CMDP）框架形式化[5](https://arxiv.org/html/2606.11266#bib.bib17)。然而，标准CMDP求解器可用的成本信号几乎普遍是*反应式*的：仿真器仅在碰撞*开始后*才发出非零成本，而PPO-Lagrangian的乘子λ[42](https://arxiv.org/html/2606.11266#bib.bib20)仅在回合预算超支后才增长。在赛道速度下，接触是瞬时且不可逆的，这种滞后是结构性的。

视觉-语言模型[36](https://arxiv.org/html/2606.11266#bib.bib1)编码了关于安全和不安全状态的丰富语义先验。自然语言描述“赛车即将撞上护栏”捕捉了即将发生危险的视觉特征，而手工特征需要精心工程才能检测。现有的VLM+RL范式要么在大规模演示集上微调数十亿参数的视觉-语言-动作模型[8](https://arxiv.org/html/2606.11266#bib.bib14),[14](https://arxiv.org/html/2606.11266#bib.bib15),[49](https://arxiv.org/html/2606.11266#bib.bib16)，要么使用冻结的VLM作为辅助奖励塑造器[16](https://arxiv.org/html/2606.11266#bib.bib6),[28](https://arxiv.org/html/2606.11266#bib.bib7),[37](https://arxiv.org/html/2606.11266#bib.bib10),[23](https://arxiv.org/html/2606.11266#bib.bib11)。这两种方法都没有将安全作为硬约束处理。奖励塑造方法将安全视为隐性惩罚，VLM-RL[23](https://arxiv.org/html/2606.11266#bib.bib11)进一步通过对比语言目标（CLG）范式在共享单纯形上耦合奖励和安全分数；SafeVLA[49](https://arxiv.org/html/2606.11266#bib.bib16)添加了CMDP目标，但需要77B+参数和约800K演示。

#### ***核心洞察*。** 冻结的CLIP可以在实际碰撞*之前*检测到视觉危险信号。通过拉格朗日乘子更新路由，这种前瞻性信息实现了*预期*约束满足，这与之前将VLM输出视为无状态奖励奖励的VLM+RL方法有本质区别。

#### ***贡献*。** 我们提出VLM-Safe-RL：
1. 1. **解耦双路径CLIP**（§3）：用于r_vlm和c_vlm的两个独立余弦路径，消除了耦合softmax的反相关伪影。
2. 2. **VLMLagrange**（§3）：一个增强型乘子更新，包含一个每步CLIP导出的预期项，在碰撞累积前收紧λ。
3. 3. **置信度门控**（§3）：一个贝叶斯最优权重κ_t，从CLIP间隔的逻辑噪声模型中封闭形式推导得出，并具有从随机策略帧缓冲区估计的校准工作点。
4. 4. **VLMPPOLag**：组合后的算法，在OmniSafe[26](https://arxiv.org/html/2606.11266#bib.bib28)中注册为一类算法。

我们在Safety-Gymnasium FormulaOne[25](https://arxiv.org/html/2606.11266#bib.bib27) L0/L1/L2（10种方法×3个等级，3-5个种子；90+次训练运行）以及两个泛化基准Bullet Safety-Gym SafetyCarReach-v0和MetaDrive[29](https://arxiv.org/html/2606.11266#bib.bib34) Easy/Medium/Hard上进行评估，保留的种子与训练不相交。压缩贡献：VLMPPOLag++Conf是唯一一个在FormulaOne L2上实现实质性回报且成本在预算内的约束感知配置，并且该机制转移到密集交通环境（保留的MetaDrive Medium上灾难率-15个百分点，自助法CI排除零）。我们还记录了一个先前未报告的MetaDrive场景采样器混叠问题，该问题会掩盖任何保留的安全改进（附录B.3）。

参见图注  
图1：来自冻结VLM的预期安全性。*(a)* 在一次FormulaOne L2 rollout中，每步CLIP危险信号c_vlm（绿色）在环境成本（红色）之前数个时间步上升。拉格朗日乘子λ在*epoch之间*使用epoch均值̄c_vlm通过公式(3)更新；每步轨迹展示了该均值累积的信号。*(b)* 保留的MetaDrive Medium：该机制将灾难率从41%降低到26%（-15个百分点；自助法95% CI[-26, -5]个百分点，n=100个保留episode）。

## 2 相关工作

**用于机器人技术和奖励塑造的VLM。** VLM已被用于任务规划和具身接地[4](https://arxiv.org/html/2606.11266#bib.bib13),[22](https://arxiv.org/html/2606.11266#bib.bib12)以及端到端视觉-语言-动作模型[8](https://arxiv.org/html/2606.11266#bib.bib14),[14](https://arxiv.org/html/2606.11266#bib.bib15),[31](https://arxiv.org/html/2606.11266#bib.bib3),[44](https://arxiv.org/html/2606.11266#bib.bib5),[49](https://arxiv.org/html/2606.11266#bib.bib16)。基于经典奖励塑造基础[34](https://arxiv.org/html/2606.11266#bib.bib33)，近期工作使用冻结的VLM作为辅助信号[16](https://arxiv.org/html/2606.11266#bib.bib6),[28](https://arxiv.org/html/2606.11266#bib.bib7),[45](https://arxiv.org/html/2606.11266#bib.bib8),[32](https://arxiv.org/html/2606.11266#bib.bib9),[37](https://arxiv.org/html/2606.11266#bib.bib10)。它们都没有施加硬安全约束。VLM-RL[23](https://arxiv.org/html/2606.11266#bib.bib11)是最接近的先前工作，引入了*对比语言目标（CLG）-作为-奖励*范式，正负自然语言目标由冻结的CLIP评分，并通过耦合的softmax组合，该softmax在无约束SAC[20](https://arxiv.org/html/2606.11266#bib.bib32)下反相关奖励和安全通道。我们从[23](https://arxiv.org/html/2606.11266#bib.bib11)中采用了CLG术语，但在CMDP框架内使用解耦路径和预期乘子更新（表3）。

**安全强化学习。** 强化学习中硬约束的经典动机[6](https://arxiv.org/html/2606.11266#bib.bib38),[40](https://arxiv.org/html/2606.11266#bib.bib37),[17](https://arxiv.org/html/2606.11266#bib.bib25),[9](https://arxiv.org/html/2606.11266#bib.bib26)]产生了一系列CMDP求解器：CPO[2](https://arxiv.org/html/2606.11266#bib.bib18), PPO-Lagrangian[42](https://arxiv.org/html/2606.11266#bib.bib20), FOCOPS[51](https://arxiv.org/html/2606.11266#bib.bib21), PCPO[48](https://arxiv.org/html/2606.11266#bib.bib22), 和CUP[47](https://arxiv.org/html/2606.11266#bib.bib23)，并通过Safety-Gymnasium[25](https://arxiv.org/html/2606.11266#bib.bib27),[43](https://arxiv.org/html/2606.11266#bib.bib36)]和OmniSafe[26](https://arxiv.org/html/2606.11266#bib.bib28)]进行评估。PID-Lagrangian[42](https://arxiv.org/html/2606.11266#bib.bib20), CRPO[46](https://arxiv.org/html/2606.11266#bib.bib45)]和Sauté-RL[41](https://arxiv.org/html/2606.11266#bib.bib46)]修改了拉格朗日动力学本身；我们的预期η₂(̄c_vlm - τ)项是正交的，因为它注入了一个新的*前瞻性*信号，该信号来自冻结的VLM，并且可以与其中任意一个结合。

深度强化学习中的可重复性问题[21](https://arxiv.org/html/2606.11266#bib.bib41),[3](https://arxiv.org/html/2606.11266#bib.bib42)]促使我们使用5,000次重采样的自助法置信区间和预注册的单侧置换检验。

**VLM作为零样本场景分类器。** 一个互补的方向将冻结的VLM视为独立训练的策略之上的循环外分类器：动作屏蔽[11](https://arxiv.org/html/2606.11266#bib.bib49)、事后异常检测[24](https://arxiv.org/html/2606.11266#bib.bib47),[33](https://arxiv.org/html/2606.11266#bib.bib52)]和语言条件场景标记[38](https://arxiv.org/html/2606.11266#bib.bib48),[37](https://arxiv.org/html/2606.11266#bib.bib10)]。我们的工作使每步VLM输出成为策略本身所解决的约束优化问题的一等公民。

## 3 VLM-Safe-RL：方法

一个CMDP是一个元组(S, A, P, r, c, d, γ)[5](https://arxiv.org/html/2606.11266#bib.bib17)；安全强化学习目标
π^⋆ = arg max_π J_R(π)  s.t.  J_C(π) ≤ d,   (1)
由PPO-Lagrangian[42](https://arxiv.org/html/2606.11266#bib.bib20)]通过更新
λ ← λ + η₁(J_C - d)
求解，该更新严格是*向后看的*。

我们在Safety-Gymnasium FormulaOne赛车仿真器[25](https://arxiv.org/html/2606.11266#bib.bib27)]上实例化该框架：一个冻结的CLIP ViT-B/32[36](https://arxiv.org/html/2606.11266#bib.bib1),[13](https://arxiv.org/html/2606.11266#bib.bib2)]在每个控制步骤接收256×256 RGB帧以及本体感觉观测s_t ∈ R^64；成本是关于屏障接触的二元信号，预算d=25在T=1000步内。

**贡献1：解耦双路径CLIP。** 先前工作[23](https://arxiv.org/html/2606.11266#bib.bib11),[37](https://arxiv.org/html/2606.11266#bib.bib10)]使用正负提示logits上的耦合softmax，迫使r_vlm + c_vlm ≈ 1。这对于CMDP是错误的，因为奖励和成本在定义上是独立的对象。我们解耦为两个余弦相似度路径，归一化到[0,1]：
r_vlm(o) = (1/N) Σ_{n=1}^N (sim(f_I(o), F⁺_n) + 1)/2,
c_vlm(o) = (1/N) Σ_{n=1}^N (sim(f_I(o), F⁻_n) + 1)/2.   (2)
文本特征F^±一次性编码并缓存；每步成本是一次图像编码加一个小点积（附录A）。

**贡献2：VLMLagrange（预期乘子）。** 令̄c_vlm = (1/T) Σ_t c_vlm(o_t) 且τ ∈ [0,1]为危险阈值。我们在标准更新中加入一个每步CLIP导出的预期项：
λ ← λ + η₁(J_C - d) + η₂(̄c_vlm - τ)   (3)
其中第一项是标准（向后）项，第二项是VLM（向前）项。η₂=0恢复原始PPO-Lagrangian，提供了对预期贡献的清晰消融。直觉很直接：当赛车*接近*屏障时，c_vlm(o_t)升高，因此̄c_vlm在一个epoch内累积碰撞前的危险证据，λ在早期训练中上升得更快，给约束在高成本探索阶段一个先发优势。实现方式：通过spec_log子类化OmniSafe的Lagrange；PPO损失不变。

**贡献3：置信度门控。** CLIP在视觉多样状态下的可靠性并不均匀。遵循二元分类器的标准逻辑噪声处理[35](https://arxiv.org/html/2606.11266#bib.bib50),[19](https://arxiv.org/html/2606.11266#bib.bib51)]，将帧o_t危险的概率建模为
Pr(y_t = 1 | m_t) = σ(s(m_t - c))
其中CLIP组间隔 m_t ≡ m_t⁺ - m_t⁻。在无信息先验下方差最小化的融合权重是贝叶斯后验间隔：
κ_t = |2σ(s(m_t - c)) - 1| ∈ [0,1],
λ_r^eff = κ_t λ_r,  λ_c^eff = κ_t λ_c.   (4)
决定性帧（κ_t → 1）让信号通过；模糊帧（κ_t → 0）抑制信号。超参数(s,c)可以从目标环境中B帧随机策略缓冲区B获得封闭形式的最大似然估计：
ĉ = median(B),  ŝ = (1/IQR(B)) log((1 + κ^⋆) / (1 - κ^⋆)),   (5)
其中κ^⋆是+1 IQR处的目标门控值（参见附录F.1的推导，以及附录F中先验对称与校准的消融；L2分类结论对选择不变）。经验间隔分布是集中的。

碰撞前的预见：基于冻结视觉语言模型的预测性安全强化学习

相似文章

D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架

通过自适应安全约束实现非平稳环境下的安全持续强化学习

揭示VLM可解释的故障模式

VLM是通过自适应测试时优化进行视频推理的优秀教师

StableVLA：迈向无需额外数据的稳健视觉-语言-动作模型

提交意见反馈