更多 AI 垃圾可以随便玩玩~

Reddit r/singularity 2026/05/17 17:50 论文

摘要

本文扩展了E8格几何激活注入，将其应用于监督式LLM安全路由，使用STE快照的E8策略头。虽然在干净数据上实现了近乎完美的路由，但该方法在对抗性压力下灾难性地失败，因此需要一种混合符号-几何架构，并配以经过审计的确定性规则。

在我上一篇关于将E8/E16晶格激活注入Transformer残差流的文章之后，过去几周我一直在将这个几何框架扩展到**监督式LLM策略与安全路由**。我想看看能否利用E8晶格作为一个高维数学基座，来路由安全决策、绕过过度拒绝，并完全消除臃肿且延迟高昂的LLM裁判的需求。**简而言之：** 尽管基于MiniLM嵌入结合直通估计器（STE）快照的E8策略头在干净数据上实现了近乎完美的路由（0.979的精确标签匹配，零不安全允许），但**在对抗性压力下，纯粹的习得几何结构会灾难性地失败**。最坏情况下的安全需要一个混合符号-几何架构，并辅以经过审计的确定性规则层。 --- ### 架构：STE快照的E8策略头为了避免朴素的无监督残差注入（这会完全破坏策略控制），我直接在MiniLM句子嵌入（维度d=384）之上训练了一个监督式分类头，将其投影到E8晶格坐标中。为了弥合连续梯度学习与离散几何表示之间的鸿沟，我使用了**直通估计器（STE）**，在前向传播时将激活值快照到最近的E8晶格根上，同时反向传播连续的梯度。 ``` 请求 -> MiniLM -> E8软混合头（STE快照） -> 规则-边界混合控制器 -> JSON模板 ``` 我们的Phase 33结果证明，STE快照的性能优于连续投影和硬快照： | 模式 | 决策匹配 | 策略匹配 | 动作匹配 | 平均得分 | | :---------- | :------- | :------- | :------- | :------- | | 连续投影 | 0.875 | 0.750 | 0.875 | 3.781 | | 硬快照 | 0.500 | 0.500 | 0.500 | 2.688 | | **STE快照** | **1.000** | **0.875** | **1.000** | **4.219** | | 软混合 | 1.000 | 0.875 | 1.000 | 4.219 | --- ### 干净数据上的成功：Phase 37 留出测试我们将测试套件扩展到28个策略案例（隐私、网络滥用、提示注入、受监管建议等），使用了一个混合控制器（将E8头与基于边界阈值0.20的机制结合，以触发人工升级或规则覆盖）。在干净分布上，E8/MiniLM混合头在未见过的策略家族（逐家族留出验证）上的泛化能力非常出色： | 指标（干净28案例套件） | 平均性能 | | :--------------------- | :------- | | **精确标签匹配** | **0.979** | | 决策匹配 | 0.986 | | 策略匹配 | 0.979 | | 不安全允许 | 0.000 | | 过度拒绝 | 0.000 | | 弃权/升级 | 0.014 | 对于干净分布下的留出策略家族，精确标签匹配仍然非常稳健： * **隐私（留出）**：精确匹配0.886，不安全允许0.000 * **网络滥用（留出）**：精确匹配0.929，不安全允许0.000 * **提示注入（留出）**：精确匹配0.893，不安全允许0.000 --- ### 崩溃：对抗性规避（Phase 38）为了找出这种几何路由的极限，我使用了一个包含40个案例的对抗性套件（同义改写规避、间接危害、多语言攻击、策略优先级冲突以及接近边界的关键词良性样本）对Phase 37架构进行了测试。结果彻底粉碎了独立几何架构零不安全允许的宣称，并暴露了朴素规则层的极端脆弱性： | 模式 | 精确标签匹配 | 不安全允许 | 有害遗漏 | 良性拦截 | | :--- | :--- | :--- | :--- | :--- | | `soft_blend:direct`（仅E8头） | 0.400 | 0.235 | 0.285 | — | | `soft_blend:deployed_rule_margin_hybrid` | 0.320 | 0.215 | 0.320 | — | | **`soft_blend:adversarial_rule_margin_hybrid`** | **0.950** | **0.000** | **0.000** | **0.000** | * **直接E8头失效**：直接的几何头在对抗性改写下不是安全的控制器，泄露了23.5%的不安全允许。 * **手工规则失效**：已部署的混合安全层在对抗性压力下也崩溃到21.5%的不安全允许率，表明简单的启发式规则匹配过于脆弱。 * **解决方案**：一个经过审计的、对抗性增强的混合规则层恢复到了零不安全允许。 --- ### 迁移赤字（Phase 40）为了测试对抗性鲁棒性是否可以被E8几何头原生地**学习**，我们在对抗性数据上训练该头，同时每次留出一个完整的对抗性家族。如果所有对抗性向量都在训练中见过，E8头很容易拟合边界（精确匹配1.000，不安全允许0.000）。**然而，这种鲁棒性无法迁移到未见过的对抗性策略上：** | 留出对抗性家族 | 直接头精确匹配 | 不安全允许 | 有害遗漏 | 策略遗漏 | | :------------- | :------------- | :--------- | :------- | :------- | | **规则规避** | 0.467 | 0.533 | 0.533 | 0.000 | | **多语言有害** | 0.000 | 0.800 | 0.800 | 0.800 | | **间接有害** | 0.100 | 0.100 | 0.500 | 0.400 | * **多语言规避缺口**：当多语言有害示例被留出时，直接几何头的不安全允许率达到80%。 * **规则规避缺口**：规则规避绕过泄露了53.3%的不安全允许率。 * **结构性失败**：虽然该头很容易映射干净的语义结构，但它无法外推到未见攻击向量的分布外对抗性几何结构。

查看原文

更多 AI 垃圾可以随便玩玩~

相似文章

表征优先于路由：克服多时间尺度PPO中的代理劫持

面向LLM安全性的在线策略蒸馏：一种基于路由的模板鲁棒对齐方法

Mixtral MoE在良性及有害提示下的安全导向路由分析

AI slop? 谁知道呢~

LACE: 用于跨线程探索的格子注意力机制

提交意见反馈