safety-assessment

#safety-assessment

MCBench: 面向全模态大语言模型的多语境安全评估基准

arXiv cs.CL ↗ · 2026-06-05 缓存

MCBench是一个新基准，用于评估全模态大语言模型在视觉、音频和文本模态下的安全性。它包含1196个场景，并发现当前模型难以进行跨模态安全推理。

0 人收藏 0 人点赞

#safety-assessment

arXiv cs.LG ↗ · 2026-05-21 缓存

本文提出了一种多智能体强化学习框架，该框架同时训练自动驾驶车辆和具有个性驱动乱穿马路行为的行人，与单智能体方法相比，碰撞率降低了30%，并展示了更真实的交互场景。

0 人收藏 0 人点赞