co-authoring-attacks

#co-authoring-attacks

HarDBench：面向安全人机协作写作的起草式越狱攻击基准

arXiv cs.CL ↗ · 2026-04-22 缓存

研究者推出 HarDBench 基准，揭示 LLM 在协作写作中因恶意草稿被越狱的风险，并提出基于偏好优化的防御方法，在不影响协作实用性的前提下显著降低有害输出。

0 人收藏 0 人点赞