AI slop? 谁知道呢~

Reddit r/artificial 论文

摘要

研究将双E8(E16)格点瓶颈激活注入Transformer残差流,发现一个尖锐的稳定性阈值β=0.20,超过该阈值生成会崩溃为重复循环。该现象在Qwen2.5模型规模上泛化,并展示了压缩潜力。

我研究了将Transformer的前向激活通过有损的双E8(E16)格点瓶颈进行路由,并重新注入残差流是否可行,以及生成稳定性的边界在哪里。**核心发现:** 在混合比例 $\beta = 0.20$ 处存在一个尖锐的经验稳定性阈值。超过这个边界,开放式生成会崩溃为语义循环和重复锁定。 --- ### 机制 标准的LLM状态是高维浮点数。我没有采用传统的标量量化(如INT4),而是通过正弦映射将高维激活映射到概念环面上,并投影到双E8格点半球上。完全用几何瓶颈替换MLP层会导致模型普遍崩溃。相反,我实现了一种残差混合: $$\text{输出} = (1-\beta)\cdot\text{原始} + \beta\cdot\text{几何}$$ --- ### $\beta = 0.20$ 扫描(Qwen2.5-0.5B) 对 `Qwen2.5-0.5B` 的第8–13层扫描 $\beta$ 从0.10到0.50,揭示了一个尖锐的相变: * **$\beta \ge 0.25$**:生成陷入严重的重复压力和语义漂移。几何结构充当吸引子,困住解码过程("循环锁定")。 * **$\beta = 0.20$**:稳定性边界。这是有损几何信号注入的最高比例,既能维持数值激活保真度(平均余弦 > 0.99),又能保持开放式生成质量(低重复n-gram)。 * **$\beta \le 0.10$**:扰动被Transformer的层归一化大量吸收和衰减,使干预不可见。 以下是300次迭代扫描的数据: | $\beta$ | 最小余弦 | 平均余弦 | 最大MSE | 重复率(Rep-3g) | | :--- | :--- | :--- | :--- | :--- | | 0.10 | 0.9972 | 0.9979 | 0.0024 | 0.134 | | **0.20** | **0.9907** | **0.9916** | **0.0106** | **0.093** | | 0.25 | 0.9839 | 0.9865 | 0.0171 | 0.084 | | 0.30 | 0.9648 | 0.9771 | 0.0255 | 0.190 | | 0.50 | 0.9171 | 0.9288 | 0.0850 | 0.412 | 语义评分(评估提示相关性和与未修改基线的相似度): | $\beta$ | 平均余弦 | 重复率(Rep-3g) | 相关性 | 修补版与基线相似度 | | :--- | :--- | :--- | :--- | :--- | | 0.10 | 0.9980 | 0.223 | 0.781 | 0.889 | | **0.20** | **0.9918** | **0.075** | **0.752** | **0.854** | | 0.25 | 0.9871 | 0.232 | 0.717 | 0.801 | | 0.30 | 0.9760 | 0.392 | 0.725 | 0.764 | --- ### 泛化(1.5B和3B模型) $\beta = 0.20$ 边界在更大的模型规模(`Qwen2.5-1.5B` 和 4-bit `Qwen2.5-3B`)上,在激活余弦轴线上泛化: | 模型 | $\beta$ | 最小余弦 | 平均余弦 | 最大MSE | 重复率(Rep-3g) | | :--- | :--- | :--- | :--- | :--- | :--- | | **1.5B** | 0.10 | 0.9988 | 0.9989 | 0.0027 | 0.267 | | | **0.20** | **0.9862** | **0.9939** | **0.0105** | **0.128** | | | 0.25 | 0.9904 | 0.9919 | 0.0166 | 0.398 | | | 0.30 | 0.9733 | 0.9815 | 0.0235 | 0.307 | | | 0.40 | 0.9368 | 0.9551 | 0.0487 | 0.191 | | **3B (4-bit)** | 0.10 | 0.9964 | 0.9976 | 0.0122 | 0.033 | | | **0.20** | **0.9861** | **0.9904** | **0.0455** | **0.115** | | | 0.25 | 0.9604 | 0.9799 | 0.0654 | 0.043 | | | 0.30 | 0.9702 | 0.9778 | 0.0987 | 0.050 | | | 0.40 | 0.9158 | 0.9390 | 0.1728 | 0.025 | *注:在3B模型中,所有扫描的重复压力保持较低,但验证余弦在 $\beta \ge 0.25$ 时同样退化。* 我还测试了逐层振荡的 $\beta$ 调度(例如跨层的正弦波),但与固定的恒定注入比例相比,它们降低了开放式文本质量。 --- ### 存储压缩原型 利用双E8/E16格点作为计算基底,在早期原型中也实现了较高的理论存储效率: 1. **KV 缓存(8倍)**:FP16 KV 缓存压缩为 INT8 坐标,占用从0.21 MB减少到0.02 MB。 2. **权重(112倍)**:将密集的 $[4864, 896]$ MLP 权重矩阵投影到0.07 MB的E16足迹上。(未校准的权重矩阵乘法的余弦相似度限制在 $\sim$0.078,表明量化感知训练对于参数可行性是必需的)。 设计了一种**预投影解压旁路**,可以直接对格点坐标进行矩阵乘法而无需上采样,避免了内存带宽瓶颈。 --- ### 策略约束(负面结果) 我评估了残差E16投影是否可以作为执行安全策略的引导基板。结论是否定的。虽然 $\beta = 0.20$ 保持了生成质量,但E16投影的有损特性剥离了维持严格边界所需的逻辑细微差别。专用监督控制头仍然是必需的。 --- ### 启示与下一步 将训练后的激活固定到代数格点上终究是有损的。真正的前沿是**原生几何Transformer**——从零开始设计并训练具有E8/E16约束的网络,这些约束原生嵌入权重矩阵和激活路由中。
查看原文

相似文章

更多 AI 垃圾可以随便玩玩~

Reddit r/singularity

本文扩展了E8格几何激活注入,将其应用于监督式LLM安全路由,使用STE快照的E8策略头。虽然在干净数据上实现了近乎完美的路由,但该方法在对抗性压力下灾难性地失败,因此需要一种混合符号-几何架构,并配以经过审计的确定性规则。

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈,在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型(0.659)相竞争的结果(0.601-0.688),表明开源权重方法已接近达到同等水平。

@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点…

X AI KOLs Timeline

本研究介绍了一种技术,通过使用阻尼Runge-Kutta子步骤,在推理时循环冻结的、现成的Transformer检查点,将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算,在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。