rubric-based-rewards

#rubric-based-rewards

RUBAS：基于评分标准的强化学习智能体安全框架

arXiv cs.LG ↗ · 5天前缓存

RUBAS 是一个面向智能体安全的评分标准强化学习框架，将 LLM 智能体行为分解为四个维度——工具使用安全性、参数安全性、响应安全性和有用性——在完整轨迹上提供细粒度奖励。实验表明，RUBAS 在标准对齐基线基础上提升了安全性，同时减少了工具相关的幻觉现象，并保持了具有竞争力的实用性。

0 人收藏 0 人点赞

#rubric-based-rewards

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文研究了基于评分标准的强化学习中的奖励黑客现象，分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法，并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。

0 人收藏 0 人点赞