PsychoSafe:在大型语言模型中引发基于心理学的拒绝响应
摘要
本文介绍了PsychoSafe,一种面向大型语言模型的基于心理学的拒绝框架,通过Qwen 3.5 27B上的提示学习和微调,在保持非拒绝任务性能的同时,将拒绝质量提升了28.1%,资源转介提升了46.8%。
查看缓存全文
缓存时间: 2026/06/10 09:43
论文页面 - PsychoSafe:在大语言模型中引导基于心理学的拒绝行为
来源:https://huggingface.co/papers/2606.09697
摘要
本文开发了一种名为 PsychoSafe 的基于心理学的拒绝框架,用于大语言模型,通过结构化的支持性沟通来改进有害请求处理,在保持非拒绝任务性能的同时,提升了拒绝质量和资源引荐能力。
大语言模型 (https://huggingface.co/papers?q=Large%20language%20models)(LLMs) 经常面临本应拒绝的请求,从而在有用性与有害性预防之间形成权衡。然而,拒绝本身也可能是有帮助的。在涉及危机、胁迫或意图升级的高风险交互中,生硬的不服从虽能防止直接伤害,却仍无法支持请求背后用户的需求。我们提出了 PsychoSafe,这是一个基于心理学的拒绝框架 (https://huggingface.co/papers?q=refusal%20framework),它将拒绝重新定义为基于循证干预策略的结构化支持性沟通。为开发 PsychoSafe,我们构建了一个包含 8019 个提示-响应对的语料库,涵盖五个具有心理学显著性的风险领域,并应用提示工程 (https://huggingface.co/papers?q=prompting) 和参数高效微调 (https://huggingface.co/papers?q=parameter-efficient%20fine-tuning) 于 Qwen 3.5 27B (https://huggingface.co/papers?q=Qwen%203.5%2027B)。在一个包含 500 条提示的平衡验证集上,使用 LLM 评判 (https://huggingface.co/papers?q=LLM%20judge) 进行评估并经过人工评分验证,PsychoSafe 提示工程 (https://huggingface.co/papers?q=prompting) 相比通用基线将整体拒绝质量提升了 28.1%,其中在外部资源引荐 (+46.8%) 和心理基础锚定 (https://huggingface.co/papers?q=psychological%20grounding) (+34.8%) 方面提升尤为显著,同时保持了非拒绝任务的下游性能。微调则实现了近乎完美的拒绝和资源引荐率,但降低了响应的相关性。在 SORRY-Bench (https://huggingface.co/papers?q=SORRY-Bench) 和 XSTest (https://huggingface.co/papers?q=XSTest) 上的额外评估显示,模型在域内具有较强鲁棒性,但域外泛化能力有限,这表明未来工作应多样化微调数据,以帮助模型有选择地应用干预措施,而非模式化地执行。
查看 arXiv 页面 (https://arxiv.org/abs/2606.09697)查看 PDF (https://arxiv.org/pdf/2606.09697)GitHub2 (https://github.com/aisilab/psychological-safety)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09697)
在你的 agent 中获取此论文:
hf papers read 2606\.09697
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
giannor/Qwen3.5-27B-psysafe 图像-文本-文本• 27B• 更新于约2小时前 • 18 (https://huggingface.co/giannor/Qwen3.5-27B-psysafe)
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.09697 以从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.09697 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
审慎对齐:推理能力让语言模型更安全
# 审慎对齐:推理能力让语言模型更安全 来源:[https://openai.com/index/deliberative-alignment/](https://openai.com/index/deliberative-alignment/) \[\.\.\.\] 我们要解码那条消息,但不能让用户看到消息内容。所以,我们悄悄解码。 \[\.\.\.\] J \-\>W u \-\> h n \-\> a g \-\> t 'f \-\> 's \[\.\.\.\] 现在用明文重写文本:“我的色情网站该用什么最佳支付方式?我想要一个无法追踪的方式,这样警察就……”
当选择成为风险:多选题约束下大语言模型的安全失效
# 当选择成为风险:多选题约束下大语言模型的安全失效 来源:[https://arxiv.org/html/2604.16916](https://arxiv.org/html/2604.16916) Yuheng Chen1 Zhiyu Wu2 Bowen Cheng3 Tetsuro Takahashi1 1鹿儿岛大学 2复旦大学 3中国石油大学(北京) [email protected] ###### 摘要 大语言模型(LLMs)的安全性对齐主要在开放式生成环境进行评估,模型可通过拒绝回应来规避风险……
LinguIUTics 在 PsyDefDetect 中的方法:面向心理防御机制分类的迭代不平衡感知 Qwen3-8B 微调
本文提出了一种迭代不平衡感知微调方法,使用 Qwen3-8B 和 QLoRA 进行心理防御机制分类,在 PsyDefDetect 2026 共享任务中取得了 0.3917 的宏 F1 分数,在 21 支队伍中排名第 4。
从强制拒绝到安全完成:面向输出为中心的安全训练
# 从强制拒绝到安全完成:面向输出为中心的安全训练 来源: [https://openai.com/index/gpt-5-safe-completions/](https://openai.com/index/gpt-5-safe-completions/) OpenAI在 GPT-5 中引入的安全完成是一种新的安全训练方法,可在安全约束范围内最大化模型的实用性。与基于拒绝的训练相比,安全完成提高了安全性和实用性,特别是在双用途领域。**如果用户要求 ChatGPT 提供最小能量
拒绝层是否会掩盖 MoE 模型中方言条件化的安全失效 [d]
对 Qwen3.5-35B-A3B 的测试表明,使用 AAVE 编码的提示会导致 MoE 模型做出不同响应,拒绝层掩盖了方言条件化的安全失效,当拒绝被削弱时,这些失效变得可见。