更多 AI 垃圾可以随便玩玩~

Reddit r/singularity 论文

摘要

本文扩展了E8格几何激活注入,将其应用于监督式LLM安全路由,使用STE快照的E8策略头。虽然在干净数据上实现了近乎完美的路由,但该方法在对抗性压力下灾难性地失败,因此需要一种混合符号-几何架构,并配以经过审计的确定性规则。

在我上一篇关于将E8/E16晶格激活注入Transformer残差流的文章之后,过去几周我一直在将这个几何框架扩展到**监督式LLM策略与安全路由**。我想看看能否利用E8晶格作为一个高维数学基座,来路由安全决策、绕过过度拒绝,并完全消除臃肿且延迟高昂的LLM裁判的需求。**简而言之:** 尽管基于MiniLM嵌入结合直通估计器(STE)快照的E8策略头在干净数据上实现了近乎完美的路由(0.979的精确标签匹配,零不安全允许),但**在对抗性压力下,纯粹的习得几何结构会灾难性地失败**。最坏情况下的安全需要一个混合符号-几何架构,并辅以经过审计的确定性规则层。 --- ### 架构:STE快照的E8策略头 为了避免朴素的无监督残差注入(这会完全破坏策略控制),我直接在MiniLM句子嵌入(维度d=384)之上训练了一个监督式分类头,将其投影到E8晶格坐标中。为了弥合连续梯度学习与离散几何表示之间的鸿沟,我使用了**直通估计器(STE)**,在前向传播时将激活值快照到最近的E8晶格根上,同时反向传播连续的梯度。 ``` 请求 -> MiniLM -> E8软混合头(STE快照) -> 规则-边界混合控制器 -> JSON模板 ``` 我们的Phase 33结果证明,STE快照的性能优于连续投影和硬快照: | 模式 | 决策匹配 | 策略匹配 | 动作匹配 | 平均得分 | | :---------- | :------- | :------- | :------- | :------- | | 连续投影 | 0.875 | 0.750 | 0.875 | 3.781 | | 硬快照 | 0.500 | 0.500 | 0.500 | 2.688 | | **STE快照** | **1.000** | **0.875** | **1.000** | **4.219** | | 软混合 | 1.000 | 0.875 | 1.000 | 4.219 | --- ### 干净数据上的成功:Phase 37 留出测试 我们将测试套件扩展到28个策略案例(隐私、网络滥用、提示注入、受监管建议等),使用了一个混合控制器(将E8头与基于边界阈值0.20的机制结合,以触发人工升级或规则覆盖)。在干净分布上,E8/MiniLM混合头在未见过的策略家族(逐家族留出验证)上的泛化能力非常出色: | 指标(干净28案例套件) | 平均性能 | | :--------------------- | :------- | | **精确标签匹配** | **0.979** | | 决策匹配 | 0.986 | | 策略匹配 | 0.979 | | 不安全允许 | 0.000 | | 过度拒绝 | 0.000 | | 弃权/升级 | 0.014 | 对于干净分布下的留出策略家族,精确标签匹配仍然非常稳健: * **隐私(留出)**:精确匹配0.886,不安全允许0.000 * **网络滥用(留出)**:精确匹配0.929,不安全允许0.000 * **提示注入(留出)**:精确匹配0.893,不安全允许0.000 --- ### 崩溃:对抗性规避(Phase 38) 为了找出这种几何路由的极限,我使用了一个包含40个案例的对抗性套件(同义改写规避、间接危害、多语言攻击、策略优先级冲突以及接近边界的关键词良性样本)对Phase 37架构进行了测试。结果彻底粉碎了独立几何架构零不安全允许的宣称,并暴露了朴素规则层的极端脆弱性: | 模式 | 精确标签匹配 | 不安全允许 | 有害遗漏 | 良性拦截 | | :--- | :--- | :--- | :--- | :--- | | `soft_blend:direct`(仅E8头) | 0.400 | 0.235 | 0.285 | — | | `soft_blend:deployed_rule_margin_hybrid` | 0.320 | 0.215 | 0.320 | — | | **`soft_blend:adversarial_rule_margin_hybrid`** | **0.950** | **0.000** | **0.000** | **0.000** | * **直接E8头失效**:直接的几何头在对抗性改写下不是安全的控制器,泄露了23.5%的不安全允许。 * **手工规则失效**:已部署的混合安全层在对抗性压力下也崩溃到21.5%的不安全允许率,表明简单的启发式规则匹配过于脆弱。 * **解决方案**:一个经过审计的、对抗性增强的混合规则层恢复到了零不安全允许。 --- ### 迁移赤字(Phase 40) 为了测试对抗性鲁棒性是否可以被E8几何头原生地**学习**,我们在对抗性数据上训练该头,同时每次留出一个完整的对抗性家族。如果所有对抗性向量都在训练中见过,E8头很容易拟合边界(精确匹配1.000,不安全允许0.000)。**然而,这种鲁棒性无法迁移到未见过的对抗性策略上:** | 留出对抗性家族 | 直接头精确匹配 | 不安全允许 | 有害遗漏 | 策略遗漏 | | :------------- | :------------- | :--------- | :------- | :------- | | **规则规避** | 0.467 | 0.533 | 0.533 | 0.000 | | **多语言有害** | 0.000 | 0.800 | 0.800 | 0.800 | | **间接有害** | 0.100 | 0.100 | 0.500 | 0.400 | * **多语言规避缺口**:当多语言有害示例被留出时,直接几何头的不安全允许率达到80%。 * **规则规避缺口**:规则规避绕过泄露了53.3%的不安全允许率。 * **结构性失败**:虽然该头很容易映射干净的语义结构,但它无法外推到未见攻击向量的分布外对抗性几何结构。
查看原文

相似文章

表征优先于路由:克服多时间尺度PPO中的代理劫持

Hugging Face Daily Papers

本文指出了代理劫持和时间不确定性是多时间尺度强化学习中的失败模式,并提出了一种目标解耦架构,该架构从Actor中移除路由,利用Critic进行辅助表征学习。该方法消除了LunarLander-v2基准上的策略崩溃,并稳定地超越了'环境已解决'阈值,而无需超参数劫持。

Mixtral MoE在良性及有害提示下的安全导向路由分析

arXiv cs.AI

本文利用基于激活和梯度的信号,分析了Mixtral 8x7B-Instruct在良性及有害提示下的路由行为。研究发现,与安全相关的路由行为是微妙的、依赖层深度的,并且是分布式的,而非由固定的一组专家主导。

AI slop? 谁知道呢~

Reddit r/artificial

研究将双E8(E16)格点瓶颈激活注入Transformer残差流,发现一个尖锐的稳定性阈值β=0.20,超过该阈值生成会崩溃为重复循环。该现象在Qwen2.5模型规模上泛化,并展示了压缩潜力。

LACE: 用于跨线程探索的格子注意力机制

arXiv cs.AI

LACE 引入了一种格子注意力机制,使LLM中的并发推理路径能够在推理过程中共享中间结果并相互纠正错误,相比标准的独立并行采样,推理准确度提高了7个多百分点。

LiSA:通过保守策略归纳实现终身安全适应

Hugging Face Daily Papers

LiSA(终身安全适应)是一个框架,通过将偶尔的失败转化为可重用的策略抽象,并利用基于证据的置信门控在稀疏和噪声反馈下保持良好性能,从而增强AI代理的安全护栏,解决实际部署中对自适应安全的关键需求。