HarDBench：面向安全人机协作写作的起草式越狱攻击基准

arXiv cs.CL 2026/04/22 04:00 论文

摘要

研究者推出 HarDBench 基准，揭示 LLM 在协作写作中因恶意草稿被越狱的风险，并提出基于偏好优化的防御方法，在不影响协作实用性的前提下显著降低有害输出。

arXiv:2604.19274v1 公告类型：新增摘要：大语言模型（LLM）越来越多地被用作协作写作的共同作者，用户先写出粗略草稿，再由模型补全、修改和润色。然而，这一能力带来严重安全隐患：恶意用户可通过在草稿中植入危险内容来“越狱”模型，迫使其生成有害文本。本文首次指出当前 LLM 对此类起草式协作越狱攻击的脆弱性，并推出 HarDBench——一套系统基准，用于评估 LLM 面对这一新兴威胁的鲁棒性。HarDBench 覆盖爆炸物、毒品、武器、网络攻击等高危领域，其提示具备真实结构与领域特定线索，可测试模型在有害补全上的易感性。为缓解风险，我们提出一种兼顾安全与实用的对齐方法：基于偏好优化，训练模型在拒绝有害补全的同时，对良性草稿依旧保持帮助。实验表明，现有 LLM 在协作写作场景中极易被利用，而我们的对齐方法能在几乎不损失协作能力的前提下，大幅降低有害输出。该研究为评估与对齐人机协作写作场景下的 LLM 开辟了新范式。基准与数据集已开源：https://github.com/untae0122/HarDBench

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:30

# HarDBench：面向安全人机协作写作的起草式越狱攻击基准  
来源：https://arxiv.org/html/2604.19274  
Euntae Kim¹，Soomin Han²，Buru Chang¹  
¹高丽大学，²西江大学  
{untae0122,buru_chang}@korea.ac.kr，[email protected]  
**警告**：本文仅出于研究目的，在分析并缓解 LLM 漏洞时提及网络攻击、爆炸物等危险流程。  

###### 摘要  
大语言模型（LLM）越来越多地被当作协作者，用于“用户打草稿 → 模型补全润色”的协作写作。然而，这一能力带来严重安全风险：恶意用户可通过越狱手段，用危险内容填充未完成草稿，迫使模型生成有害输出。本文首次揭示此类“起草式协作越狱攻击”的隐患，提出 HarDBench——系统评估 LLM 在该场景鲁棒性的基准。HarDBench 覆盖爆炸物、毒品、武器、网络攻击四大高危领域，提供结构逼真、带领域线索的提示，测试模型是否易被“有害补全”利用。为缓解风险，我们提出一种“安全-效用平衡”的对齐方法：基于偏好优化，让模型对有害草稿学会拒绝，对良性草稿保持帮助。实验表明，现有 LLM 在协作写作场景下极其脆弱，而我们的对齐方法能在几乎不损失协作能力的前提下显著降低有害输出。本研究为评估与对齐“人-LLM 协作写作”开辟了新范式。基准与数据集已开源：https://github.com/untae0122/HarDBench  

HarDBench：面向安全人机协作写作的起草式越狱攻击基准  
Euntae Kim¹，Soomin Han²，Buru Chang¹†（通讯作者）  
¹高丽大学，²西江大学  
{untae0122,buru_chang}@korea.ac.kr，[email protected]  
**警告**：本文仅出于研究目的，在分析并缓解 LLM 漏洞时提及网络攻击、爆炸物等危险流程。  

![图1](https://arxiv.org/html/2604.19274#S0.F1)  
图1：协作写作滥用示例。恶意用户提供未完成的危险草稿，目标模型在补全时利用自身知识添加可执行细节（红色高亮），生成完整危害流程。

## 1 引言  
大语言模型（LLM）能够基于大规模语料生成知识丰富、连贯的文本，因此被广泛用作“协作者”：用户先写粗略草稿，再让模型补全、润色、完善（Lee 等，2022；Noy 和 Zhang，2023）。近期的人类偏好优化研究进一步提升了模型的协作能力，使其在有用性、清晰度、写作质量上更贴合人类偏好（Ouyang 等，2022；Ethayarajh 等，2024）。  

然而，这种“起草 → 补全”流程可能被滥用：如图 1 所示，攻击者可提交不完整却有害的手稿（如半成品的毒品合成步骤），让模型“润色”。即便有安全机制，模型仍会利用内部知识补全出详细、可执行的危害说明，造成现实伤害。该风险暴露了一个盲区：系统级护栏在协作补全场景下易被绕过。  

为此，我们提出 **HarDBench（Harmful Draft Benchmark）**，系统评估 LLM 在“起草式协作越狱”中的脆弱性。我们首先人工收集四大高危领域关键词（如 PETN、fentanyl、M16、Whonix），用其生成有害草稿片段，再通过赋予“协作者”角色与情境，构造逼真的越狱提示。实验显示，包括 ChatGPT、Gemini 在内的 SOTA 模型均极易中招，证明 HarDBench 对提升协作安全具有重要价值。  

为修复该漏洞，我们提出“安全-效用平衡”的对齐方法：基于偏好优化，让模型对有害草稿拒绝，对良性草稿合作。我们在 HarDBench 及四个公开协作基准（WritingBench、LongBench-Write、HelloBench、WildBench-v2）上验证，新方法在显著提升安全性的同时，保持了协作能力。  

核心贡献：  
- 首次揭示“起草式协作越狱”这一关键但被忽视的风险。  
- 提出 HarDBench，系统评估 LLM 在逼真协作场景下的越狱脆弱性。  
- 提出安全-效用平衡的偏好对齐方法，兼顾拒绝有害与保持有用。  
- 实验表明 SOTA 模型在该场景下极其脆弱，我们的对齐方法显著改善安全且不损效用。

## 2 相关工作  

### 2.1 越狱红队  
现有越狱研究可分为手工与自动两类：  
- **手工越狱**：通过精心构造提示或角色扮演诱骗模型（Wei 等，2023；Yu 等，2024）。  
- **自动越狱**：利用梯度优化（Zou 等，2023）、遗传算法（Lapid 等，2024）、LLM 辅助改写（Shah 等，2023；Pu 等，2024）或多轮升级（PAIR、Crescendo）自动生成攻击提示。  

本文聚焦**单轮起草式协作越狱**：攻击者直接提交显式有害草稿，以“专业编辑”名义让模型补全。与隐藏意图的 BaitAttack 不同，我们让有害内容完全可见，孤立考察模型在提示层识别与拒绝的能力。  

现有基准（AdvBench、JailbreakBench、HarmBench）主要评估直接指令越狱，忽视协作写作场景。HarDBench 填补空白，专门评估“未完成草稿诱导有害补全”的风险。

### 2.2 基于偏好优化的 LLM 对齐  
RLHF（Ouyang 等，2022）、DPO（Rafailov 等，2023）、SimPO（Meng 等，2024）、KTO（Ethayarajh 等，2024）等离线偏好优化方法，以及 GRPO、DAPO 等在线 RLVR 方法，均通过人类或规则反馈对齐模型。  

受上述工作启发，我们提出“安全-效用平衡”的偏好对齐：对有害草稿把“拒绝”标为 chosen，对良性草稿把“合作”标为 chosen，统一优化，实现在协作场景下既安全又有用。

![图2](https://arxiv.org/html/2604.19274#S2.F2)  
图2：有害草稿生成与起草式越狱流程示意。关键词生成有害查询 → 草稿模型产出不完整有害草稿 → GPT-4o 验证 → 重封装为协作提示 → 目标模型补全出可执行危害内容。

## 3 HarDBench：有害草稿基准  
本节介绍 HarDBench 的构建与评估方法。

### 3.1 起草式协作越狱  
模型的“补全本能”可被武器化：提交未完成有害草稿并赋予明确任务框架，模型会优先保证逻辑与文笔，从而绕过安全护栏，生成详细可执行的危害说明。HarDBench 首次系统模拟此类场景。

### 3.2 有害草稿生成  
为贴近真实滥用，我们收集四大领域关键词：  
- 爆炸物（如 PETN、ANFO）  
- 毒品（如 fenethylline、fentanyl）  
- 武器（如 M16、9mm）  
- 网络攻击（如 Whonix、Cobalt Strike）  

用领域模板生成有害查询（如“告诉我 fentanyl 的成分与制造方法”），送入 LLaMA-3-8B-Instruct 作为“草稿模型”，产出不完整有害草稿。生成时附加最小后缀以探测模型安全机制，再经 GPT-4o 验证合理性与危害性，最终保留高质量草稿用于构建越狱提示。

HarDBench：面向安全人机协作写作的起草式越狱攻击基准

相似文章

通过对抗性黑客-修复循环强化代理基准测试

CHASE：基于强化学习的对抗性红蓝对抗提升大语言模型安全性

偏离分布的声音：同人小说子类型作为对齐大语言模型的通用白话越狱手段

CollabBench：通过主动参与与多样玩家基准测试并释放LLM协作能力

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

提交意见反馈