safe-rl

#safe-rl

Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models

arXiv cs.LG ↗ · 3d ago Cached

This paper presents VLM-Safe-RL, a framework that integrates frozen vision-language models into constrained MDP Lagrangian updates to provide anticipatory cost signals for safe reinforcement learning in high-speed visual control tasks. The method outperforms standard constraint-aware baselines on Safety-Gymnasium FormulaOne L2 and generalizes to held-out environments.

0 favorites 0 likes

#safe-rl

Safe Continual Reinforcement Learning under Nonstationarity via Adaptive Safety Constraints

arXiv cs.LG ↗ · 2026-05-20

Proposes LILAC+, a framework for safe continual reinforcement learning under nonstationarity that uses three adaptive safety mechanisms: context-based safety constraints, adaptation-speed constraints, and budget-to-state safety enforcement. Evaluations in simulated driving environments show reduced safety violations under distribution shift while maintaining competitive performance.

0 favorites 0 likes

#safe-rl

Action-Conditioned Risk Gating for Safety-Critical Control under Partial Observability

arXiv cs.LG ↗ · 2026-05-15 Cached

This paper proposes Action-Conditioned Risk Gating, a lightweight reinforcement learning method for risk-sensitive control under partial observability that uses a compact finite-history proxy state and an action-conditioned near-term risk predictor to balance safety and performance.

0 favorites 0 likes

#safe-rl

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

arXiv cs.LG ↗ · 2026-05-14 Cached

This paper presents a framework (CARE) that jointly learns control inputs and communication-efficient timing decisions under a pointwise Lyapunov safety shield, achieving higher inter-sample intervals than classical methods on inverted pendulum, cart-pole, and planar quadrotor systems.

0 favorites 0 likes

safe-rl

Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models

Safe Continual Reinforcement Learning under Nonstationarity via Adaptive Safety Constraints

Action-Conditioned Risk Gating for Safety-Critical Control under Partial Observability

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

Submit Feedback