BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
red-blue-teaming
标签
Cards
List
#red-blue-teaming
CHASE:基于强化学习的对抗性红蓝对抗提升大语言模型安全性
arXiv cs.CL
↗
· 2天前
缓存
CHASE 提出了一种共同进化的红蓝对抗框架,利用强化学习增强大语言模型对自适应黑盒对抗攻击的防御能力,在基准测试中将越狱成功率降低43.2%,同时在对良性提示的误拒率保持为零。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交