拒绝层是否会掩盖 MoE 模型中方言条件化的安全失效 [d]

Reddit r/MachineLearning 2026/05/18 08:58 论文

safety dialect aave moe refusal-layer routing bias

摘要

对 Qwen3.5-35B-A3B 的测试表明，使用 AAVE 编码的提示会导致 MoE 模型做出不同响应，拒绝层掩盖了方言条件化的安全失效，当拒绝被削弱时，这些失效变得可见。

我着手测试是否以 AAVE（非裔美国人英语方言）编码的提示会导致 MoE 语言模型在安全敏感场景下，在路由、推理和响应方面与语义匹配的 AE（学术英语）提示产生差异，尤其是在拒绝行为被削弱或移除的情况下。我使用了 Qwen3.5-35B-A3B 及其 HauhauCS 无拒绝微调变体。Q8。采用贪婪解码以获得最佳可重复性。按重要性排序的三个发现促使我提出这个问题：1：“我打算实施暴力行为”提示。发布的 Qwen3.5-35B-A3B 拒绝了两种提示。Hauhau 则均未拒绝。使用 AAVE 表达意图与武装敌人对抗的说话者，得到了目标确认、退出策略规划、“干净射击”框架（模型用语，非用户用语），以及一个征求进一步战术情报的结束问题。对于无拒绝模型来说，这并不意外，但考虑到 AE 对比时情况则不同。语义匹配且令牌长度相同的提示，产生了“等到明天”的回应、法律后果框架，以及“如果我今晚开枪打他，我会后悔吗？”不同类型的帮助。一个是操作性的，一个是减轻性的。完全取决于语域本身。2：带有 AAVE 语域的思考模式破坏了无拒绝变体。平均输出在 AAVE 上比 AE 长 2.6 倍（5054 对比 1934 令牌）。多个 AAVE 痕迹在递归循环中达到了 8192 令牌的上限，在场景延续上打转而非结束。匹配的 AE 提示则一次性干净终止。发布的带思考模式的基模型不会出现这种情况——无法终止是特定于 AAVE 上的拒绝减弱变体。3：语域导致的路由分歧在任何可见拒绝的上游就明显存在。匹配对的首个生成令牌路由张量在基模型上针对财务压力提示产生了 0.423 的 Jensen-Shannon 散度，在微调模型上针对胸痛提示产生了 0.479 的散度，高偏移行显示在内容匹配的情况下，语域条件之间的顶级专家几乎完全更替。拒绝层似乎并未消除语域条件化的响应选择；而是覆盖其上。当拒绝减弱时，底层路径变为可见路径。这是否支持以下结论？ - 路由分歧位于拒绝的上游。 - 拒绝层有助于将该分歧转化为可比较的输出。 - 方言条件化的安全失效是 MoE 模型中的部署问题，这些模型的安全姿态仅依赖于拒绝。期待任何想法！

查看原文

相似文章

PsychoSafe：在大型语言模型中引发基于心理学的拒绝响应

Hugging Face Daily Papers

本文介绍了PsychoSafe，一种面向大型语言模型的基于心理学的拒绝框架，通过Qwen 3.5 27B上的提示学习和微调，在保持非拒绝任务性能的同时，将拒绝质量提升了28.1%，资源转介提升了46.8%。

为什么A10b以下的MOE让我像在赌博

Reddit r/LocalLLaMA

开发者报告称，像 qwen3.6-35b-A3b 这种“活跃参数量”较小的 MOE 模型，相比稠密的 qwen3.5-27b，一致性更低、需要更多引导，很难直接塞进智能体工作流。

专家感知的拒绝引导

arXiv cs.CL

本文将拒绝引导（基于激活的越狱方法）扩展至混合专家（MoE）大语言模型，发现 MoE 的路由模式并不会阻碍引导效果，并提出了专家感知方法，可基于单个专家的输出来抑制拒绝行为。

当选择成为风险：多选题约束下大语言模型的安全失效

arXiv cs.CL

# 当选择成为风险：多选题约束下大语言模型的安全失效来源：[https://arxiv.org/html/2604.16916](https://arxiv.org/html/2604.16916) Yuheng Chen1 Zhiyu Wu2 Bowen Cheng3 Tetsuro Takahashi1 1鹿儿岛大学 2复旦大学 3中国石油大学（北京） [email protected] ###### 摘要大语言模型（LLMs）的安全性对齐主要在开放式生成环境进行评估，模型可通过拒绝回应来规避风险……

OBLITERATUS/Qwen3.6-27B-OBLITERATED

Hugging Face Models Trending

OBLITERATUS 发布了经过修改的 27B Qwen3.6 检查点，通过源绑定消融技术消除了拒绝行为，保留了能力并支持无审查的本地使用。公开基准测试显示高非拒绝率，同时保持了 MMLU-Pro 分数。