AI slop? 谁知道呢~
摘要
研究将双E8(E16)格点瓶颈激活注入Transformer残差流,发现一个尖锐的稳定性阈值β=0.20,超过该阈值生成会崩溃为重复循环。该现象在Qwen2.5模型规模上泛化,并展示了压缩潜力。
我研究了将Transformer的前向激活通过有损的双E8(E16)格点瓶颈进行路由,并重新注入残差流是否可行,以及生成稳定性的边界在哪里。**核心发现:** 在混合比例 $\beta = 0.20$ 处存在一个尖锐的经验稳定性阈值。超过这个边界,开放式生成会崩溃为语义循环和重复锁定。
---
### 机制
标准的LLM状态是高维浮点数。我没有采用传统的标量量化(如INT4),而是通过正弦映射将高维激活映射到概念环面上,并投影到双E8格点半球上。完全用几何瓶颈替换MLP层会导致模型普遍崩溃。相反,我实现了一种残差混合:
$$\text{输出} = (1-\beta)\cdot\text{原始} + \beta\cdot\text{几何}$$
---
### $\beta = 0.20$ 扫描(Qwen2.5-0.5B)
对 `Qwen2.5-0.5B` 的第8–13层扫描 $\beta$ 从0.10到0.50,揭示了一个尖锐的相变:
* **$\beta \ge 0.25$**:生成陷入严重的重复压力和语义漂移。几何结构充当吸引子,困住解码过程("循环锁定")。
* **$\beta = 0.20$**:稳定性边界。这是有损几何信号注入的最高比例,既能维持数值激活保真度(平均余弦 > 0.99),又能保持开放式生成质量(低重复n-gram)。
* **$\beta \le 0.10$**:扰动被Transformer的层归一化大量吸收和衰减,使干预不可见。
以下是300次迭代扫描的数据:
| $\beta$ | 最小余弦 | 平均余弦 | 最大MSE | 重复率(Rep-3g) |
| :--- | :--- | :--- | :--- | :--- |
| 0.10 | 0.9972 | 0.9979 | 0.0024 | 0.134 |
| **0.20** | **0.9907** | **0.9916** | **0.0106** | **0.093** |
| 0.25 | 0.9839 | 0.9865 | 0.0171 | 0.084 |
| 0.30 | 0.9648 | 0.9771 | 0.0255 | 0.190 |
| 0.50 | 0.9171 | 0.9288 | 0.0850 | 0.412 |
语义评分(评估提示相关性和与未修改基线的相似度):
| $\beta$ | 平均余弦 | 重复率(Rep-3g) | 相关性 | 修补版与基线相似度 |
| :--- | :--- | :--- | :--- | :--- |
| 0.10 | 0.9980 | 0.223 | 0.781 | 0.889 |
| **0.20** | **0.9918** | **0.075** | **0.752** | **0.854** |
| 0.25 | 0.9871 | 0.232 | 0.717 | 0.801 |
| 0.30 | 0.9760 | 0.392 | 0.725 | 0.764 |
---
### 泛化(1.5B和3B模型)
$\beta = 0.20$ 边界在更大的模型规模(`Qwen2.5-1.5B` 和 4-bit `Qwen2.5-3B`)上,在激活余弦轴线上泛化:
| 模型 | $\beta$ | 最小余弦 | 平均余弦 | 最大MSE | 重复率(Rep-3g) |
| :--- | :--- | :--- | :--- | :--- | :--- |
| **1.5B** | 0.10 | 0.9988 | 0.9989 | 0.0027 | 0.267 |
| | **0.20** | **0.9862** | **0.9939** | **0.0105** | **0.128** |
| | 0.25 | 0.9904 | 0.9919 | 0.0166 | 0.398 |
| | 0.30 | 0.9733 | 0.9815 | 0.0235 | 0.307 |
| | 0.40 | 0.9368 | 0.9551 | 0.0487 | 0.191 |
| **3B (4-bit)** | 0.10 | 0.9964 | 0.9976 | 0.0122 | 0.033 |
| | **0.20** | **0.9861** | **0.9904** | **0.0455** | **0.115** |
| | 0.25 | 0.9604 | 0.9799 | 0.0654 | 0.043 |
| | 0.30 | 0.9702 | 0.9778 | 0.0987 | 0.050 |
| | 0.40 | 0.9158 | 0.9390 | 0.1728 | 0.025 |
*注:在3B模型中,所有扫描的重复压力保持较低,但验证余弦在 $\beta \ge 0.25$ 时同样退化。*
我还测试了逐层振荡的 $\beta$ 调度(例如跨层的正弦波),但与固定的恒定注入比例相比,它们降低了开放式文本质量。
---
### 存储压缩原型
利用双E8/E16格点作为计算基底,在早期原型中也实现了较高的理论存储效率:
1. **KV 缓存(8倍)**:FP16 KV 缓存压缩为 INT8 坐标,占用从0.21 MB减少到0.02 MB。
2. **权重(112倍)**:将密集的 $[4864, 896]$ MLP 权重矩阵投影到0.07 MB的E16足迹上。(未校准的权重矩阵乘法的余弦相似度限制在 $\sim$0.078,表明量化感知训练对于参数可行性是必需的)。
设计了一种**预投影解压旁路**,可以直接对格点坐标进行矩阵乘法而无需上采样,避免了内存带宽瓶颈。
---
### 策略约束(负面结果)
我评估了残差E16投影是否可以作为执行安全策略的引导基板。结论是否定的。虽然 $\beta = 0.20$ 保持了生成质量,但E16投影的有损特性剥离了维持严格边界所需的逻辑细微差别。专用监督控制头仍然是必需的。
---
### 启示与下一步
将训练后的激活固定到代数格点上终究是有损的。真正的前沿是**原生几何Transformer**——从零开始设计并训练具有E8/E16约束的网络,这些约束原生嵌入权重矩阵和激活路由中。
相似文章
更多 AI 垃圾可以随便玩玩~
本文扩展了E8格几何激活注入,将其应用于监督式LLM安全路由,使用STE快照的E8策略头。虽然在干净数据上实现了近乎完美的路由,但该方法在对抗性压力下灾难性地失败,因此需要一种混合符号-几何架构,并配以经过审计的确定性规则。
2倍 tok/s(在1块MI50上从19.4 tok/s提升到38.1 tok/s)尝试类似推测解码的假设……但不是用额外的侧模型,而是利用我可以同时运行多个计算,就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。
打包双推理(PTI)是一种通过单批解码中运行多个token序列来实现约2倍LLM吞吐量的技术,它利用了llama.cpp中的权重共享,无需草稿模型或额外VRAM。
Orthrus-Qwen3-8B:在Qwen3-8B上实现高达7.8倍每前向传播token数,冻结主干网络,可证明输出分布一致
介绍Orthrus,一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法,在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速,且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练,并避免了外部草稿模型带来的TTFT惩罚。
@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384
使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈,在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型(0.659)相竞争的结果(0.601-0.688),表明开源权重方法已接近达到同等水平。
@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点…
本研究介绍了一种技术,通过使用阻尼Runge-Kutta子步骤,在推理时循环冻结的、现成的Transformer检查点,将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算,在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。