red-blue-teaming

标签

Cards List
#red-blue-teaming

CHASE:基于强化学习的对抗性红蓝对抗提升大语言模型安全性

arXiv cs.CL · 2天前 缓存

CHASE 提出了一种共同进化的红蓝对抗框架,利用强化学习增强大语言模型对自适应黑盒对抗攻击的防御能力,在基准测试中将越狱成功率降低43.2%,同时在对良性提示的误拒率保持为零。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈