co-authoring-attacks

标签

Cards List
#co-authoring-attacks

HarDBench:面向安全人机协作写作的起草式越狱攻击基准

arXiv cs.CL · 2026-04-22 缓存

研究者推出 HarDBench 基准,揭示 LLM 在协作写作中因恶意草稿被越狱的风险,并提出基于偏好优化的防御方法,在不影响协作实用性的前提下显著降低有害输出。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈