red-blue-teaming

#red-blue-teaming

CHASE：基于强化学习的对抗性红蓝对抗提升大语言模型安全性

arXiv cs.CL ↗ · 2天前缓存

CHASE 提出了一种共同进化的红蓝对抗框架，利用强化学习增强大语言模型对自适应黑盒对抗攻击的防御能力，在基准测试中将越狱成功率降低43.2%，同时在对良性提示的误拒率保持为零。

0 人收藏 0 人点赞