PsychoSafe：在大型语言模型中引发基于心理学的拒绝响应

Hugging Face Daily Papers 2026/06/08 16:19 论文

llm-safety refusal-framework psychological-intervention fine-tuning prompting ai-safety harm-prevention

摘要

本文介绍了PsychoSafe，一种面向大型语言模型的基于心理学的拒绝框架，通过Qwen 3.5 27B上的提示学习和微调，在保持非拒绝任务性能的同时，将拒绝质量提升了28.1%，资源转介提升了46.8%。

大型语言模型（LLMs）经常面临需要拒绝的请求，这造成了有用性与危害预防之间的权衡。然而，拒绝本身也可能具有建设性。在涉及危机、胁迫或意图升级的高风险交互中，生硬的拒绝虽能避免直接伤害，却未能满足请求背后之人的需求。我们提出了PsychoSafe，一种基于心理学的拒绝框架，将拒绝重新定义为基于循证干预策略的结构化支持性沟通。为开发PsychoSafe，我们构建了一个涵盖五个心理学显著风险领域的8019个提示-响应对的语料库，并对Qwen 3.5 27B应用提示学习和参数高效微调。在包含500个提示的平衡验证集上，使用LLM裁判进行评估并通过人类评分验证，PsychoSafe提示学习在通用基线上将整体拒绝质量提升了28.1%，其中外部资源转介提升46.8%，心理学依据提升34.8%，同时保持非拒绝任务的下游性能。微调实现了近乎完美的拒绝率和资源转介率，但降低了响应相关性。在SORRY-Bench和XSTest上的额外评估显示出强的领域内鲁棒性但有限的跨领域泛化能力，表明未来工作应多样化微调数据，以帮助模型选择性地而非机械地应用干预措施。

查看原文

查看缓存全文

缓存时间: 2026/06/10 09:43

论文页面 - PsychoSafe：在大语言模型中引导基于心理学的拒绝行为

来源：https://huggingface.co/papers/2606.09697

摘要

本文开发了一种名为 PsychoSafe 的基于心理学的拒绝框架，用于大语言模型，通过结构化的支持性沟通来改进有害请求处理，在保持非拒绝任务性能的同时，提升了拒绝质量和资源引荐能力。

大语言模型 (https://huggingface.co/papers?q=Large%20language%20models)(LLMs) 经常面临本应拒绝的请求，从而在有用性与有害性预防之间形成权衡。然而，拒绝本身也可能是有帮助的。在涉及危机、胁迫或意图升级的高风险交互中，生硬的不服从虽能防止直接伤害，却仍无法支持请求背后用户的需求。我们提出了 PsychoSafe，这是一个基于心理学的拒绝框架 (https://huggingface.co/papers?q=refusal%20framework)，它将拒绝重新定义为基于循证干预策略的结构化支持性沟通。为开发 PsychoSafe，我们构建了一个包含 8019 个提示-响应对的语料库，涵盖五个具有心理学显著性的风险领域，并应用提示工程 (https://huggingface.co/papers?q=prompting) 和参数高效微调 (https://huggingface.co/papers?q=parameter-efficient%20fine-tuning) 于 Qwen 3.5 27B (https://huggingface.co/papers?q=Qwen%203.5%2027B)。在一个包含 500 条提示的平衡验证集上，使用 LLM 评判 (https://huggingface.co/papers?q=LLM%20judge) 进行评估并经过人工评分验证，PsychoSafe 提示工程 (https://huggingface.co/papers?q=prompting) 相比通用基线将整体拒绝质量提升了 28.1%，其中在外部资源引荐 (+46.8%) 和心理基础锚定 (https://huggingface.co/papers?q=psychological%20grounding) (+34.8%) 方面提升尤为显著，同时保持了非拒绝任务的下游性能。微调则实现了近乎完美的拒绝和资源引荐率，但降低了响应的相关性。在 SORRY-Bench (https://huggingface.co/papers?q=SORRY-Bench) 和 XSTest (https://huggingface.co/papers?q=XSTest) 上的额外评估显示，模型在域内具有较强鲁棒性，但域外泛化能力有限，这表明未来工作应多样化微调数据，以帮助模型有选择地应用干预措施，而非模式化地执行。

查看 arXiv 页面 (https://arxiv.org/abs/2606.09697)查看 PDF (https://arxiv.org/pdf/2606.09697)GitHub2 (https://github.com/aisilab/psychological-safety)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09697)

在你的 agent 中获取此论文：

hf papers read 2606\.09697

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

giannor/Qwen3.5-27B-psysafe 图像-文本-文本• 27B• 更新于约2小时前 • 18 (https://huggingface.co/giannor/Qwen3.5-27B-psysafe)

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.09697 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.09697 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

审慎对齐：推理能力让语言模型更安全

OpenAI Blog

# 审慎对齐：推理能力让语言模型更安全来源：[https://openai.com/index/deliberative-alignment/](https://openai.com/index/deliberative-alignment/) \[\.\.\.\] 我们要解码那条消息，但不能让用户看到消息内容。所以，我们悄悄解码。 \[\.\.\.\] J \-\>W u \-\> h n \-\> a g \-\> t 'f \-\> 's \[\.\.\.\] 现在用明文重写文本：“我的色情网站该用什么最佳支付方式？我想要一个无法追踪的方式，这样警察就……”

当选择成为风险：多选题约束下大语言模型的安全失效

arXiv cs.CL

# 当选择成为风险：多选题约束下大语言模型的安全失效来源：[https://arxiv.org/html/2604.16916](https://arxiv.org/html/2604.16916) Yuheng Chen1 Zhiyu Wu2 Bowen Cheng3 Tetsuro Takahashi1 1鹿儿岛大学 2复旦大学 3中国石油大学（北京） [email protected] ###### 摘要大语言模型（LLMs）的安全性对齐主要在开放式生成环境进行评估，模型可通过拒绝回应来规避风险……