PsychoSafe:在大型语言模型中引发基于心理学的拒绝响应

Hugging Face Daily Papers 论文

摘要

本文介绍了PsychoSafe,一种面向大型语言模型的基于心理学的拒绝框架,通过Qwen 3.5 27B上的提示学习和微调,在保持非拒绝任务性能的同时,将拒绝质量提升了28.1%,资源转介提升了46.8%。

大型语言模型(LLMs)经常面临需要拒绝的请求,这造成了有用性与危害预防之间的权衡。然而,拒绝本身也可能具有建设性。在涉及危机、胁迫或意图升级的高风险交互中,生硬的拒绝虽能避免直接伤害,却未能满足请求背后之人的需求。我们提出了PsychoSafe,一种基于心理学的拒绝框架,将拒绝重新定义为基于循证干预策略的结构化支持性沟通。为开发PsychoSafe,我们构建了一个涵盖五个心理学显著风险领域的8019个提示-响应对的语料库,并对Qwen 3.5 27B应用提示学习和参数高效微调。在包含500个提示的平衡验证集上,使用LLM裁判进行评估并通过人类评分验证,PsychoSafe提示学习在通用基线上将整体拒绝质量提升了28.1%,其中外部资源转介提升46.8%,心理学依据提升34.8%,同时保持非拒绝任务的下游性能。微调实现了近乎完美的拒绝率和资源转介率,但降低了响应相关性。在SORRY-Bench和XSTest上的额外评估显示出强的领域内鲁棒性但有限的跨领域泛化能力,表明未来工作应多样化微调数据,以帮助模型选择性地而非机械地应用干预措施。
查看原文
查看缓存全文

缓存时间: 2026/06/10 09:43

论文页面 - PsychoSafe:在大语言模型中引导基于心理学的拒绝行为

来源:https://huggingface.co/papers/2606.09697

摘要

本文开发了一种名为 PsychoSafe 的基于心理学的拒绝框架,用于大语言模型,通过结构化的支持性沟通来改进有害请求处理,在保持非拒绝任务性能的同时,提升了拒绝质量和资源引荐能力。

大语言模型 (https://huggingface.co/papers?q=Large%20language%20models)(LLMs) 经常面临本应拒绝的请求,从而在有用性与有害性预防之间形成权衡。然而,拒绝本身也可能是有帮助的。在涉及危机、胁迫或意图升级的高风险交互中,生硬的不服从虽能防止直接伤害,却仍无法支持请求背后用户的需求。我们提出了 PsychoSafe,这是一个基于心理学的拒绝框架 (https://huggingface.co/papers?q=refusal%20framework),它将拒绝重新定义为基于循证干预策略的结构化支持性沟通。为开发 PsychoSafe,我们构建了一个包含 8019 个提示-响应对的语料库,涵盖五个具有心理学显著性的风险领域,并应用提示工程 (https://huggingface.co/papers?q=prompting) 和参数高效微调 (https://huggingface.co/papers?q=parameter-efficient%20fine-tuning) 于 Qwen 3.5 27B (https://huggingface.co/papers?q=Qwen%203.5%2027B)。在一个包含 500 条提示的平衡验证集上,使用 LLM 评判 (https://huggingface.co/papers?q=LLM%20judge) 进行评估并经过人工评分验证,PsychoSafe 提示工程 (https://huggingface.co/papers?q=prompting) 相比通用基线将整体拒绝质量提升了 28.1%,其中在外部资源引荐 (+46.8%) 和心理基础锚定 (https://huggingface.co/papers?q=psychological%20grounding) (+34.8%) 方面提升尤为显著,同时保持了非拒绝任务的下游性能。微调则实现了近乎完美的拒绝和资源引荐率,但降低了响应的相关性。在 SORRY-Bench (https://huggingface.co/papers?q=SORRY-Bench) 和 XSTest (https://huggingface.co/papers?q=XSTest) 上的额外评估显示,模型在域内具有较强鲁棒性,但域外泛化能力有限,这表明未来工作应多样化微调数据,以帮助模型有选择地应用干预措施,而非模式化地执行。

查看 arXiv 页面 (https://arxiv.org/abs/2606.09697)查看 PDF (https://arxiv.org/pdf/2606.09697)GitHub2 (https://github.com/aisilab/psychological-safety)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09697)

在你的 agent 中获取此论文:

hf papers read 2606\.09697

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

giannor/Qwen3.5-27B-psysafe 图像-文本-文本• 27B• 更新于约2小时前 • 18 (https://huggingface.co/giannor/Qwen3.5-27B-psysafe)

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.09697 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.09697 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

审慎对齐:推理能力让语言模型更安全

OpenAI Blog

# 审慎对齐:推理能力让语言模型更安全 来源:[https://openai.com/index/deliberative-alignment/](https://openai.com/index/deliberative-alignment/) \[\.\.\.\] 我们要解码那条消息,但不能让用户看到消息内容。所以,我们悄悄解码。 \[\.\.\.\] J \-\>W u \-\> h n \-\> a g \-\> t 'f \-\> 's \[\.\.\.\] 现在用明文重写文本:“我的色情网站该用什么最佳支付方式?我想要一个无法追踪的方式,这样警察就……”

当选择成为风险:多选题约束下大语言模型的安全失效

arXiv cs.CL

# 当选择成为风险:多选题约束下大语言模型的安全失效 来源:[https://arxiv.org/html/2604.16916](https://arxiv.org/html/2604.16916) Yuheng Chen1 Zhiyu Wu2 Bowen Cheng3 Tetsuro Takahashi1 1鹿儿岛大学 2复旦大学 3中国石油大学(北京) [email protected] ###### 摘要 大语言模型(LLMs)的安全性对齐主要在开放式生成环境进行评估,模型可通过拒绝回应来规避风险……

从强制拒绝到安全完成:面向输出为中心的安全训练

OpenAI Blog

# 从强制拒绝到安全完成:面向输出为中心的安全训练 来源: [https://openai.com/index/gpt-5-safe-completions/](https://openai.com/index/gpt-5-safe-completions/) OpenAI在 GPT-5 中引入的安全完成是一种新的安全训练方法,可在安全约束范围内最大化模型的实用性。与基于拒绝的训练相比,安全完成提高了安全性和实用性,特别是在双用途领域。**如果用户要求 ChatGPT 提供最小能量