AI slop? 谁知道呢~

Reddit r/artificial 2026/05/17 17:22 论文

摘要

研究将双E8（E16）格点瓶颈激活注入Transformer残差流，发现一个尖锐的稳定性阈值β=0.20，超过该阈值生成会崩溃为重复循环。该现象在Qwen2.5模型规模上泛化，并展示了压缩潜力。

我研究了将Transformer的前向激活通过有损的双E8（E16）格点瓶颈进行路由，并重新注入残差流是否可行，以及生成稳定性的边界在哪里。**核心发现：** 在混合比例 $\beta = 0.20$ 处存在一个尖锐的经验稳定性阈值。超过这个边界，开放式生成会崩溃为语义循环和重复锁定。 --- ### 机制标准的LLM状态是高维浮点数。我没有采用传统的标量量化（如INT4），而是通过正弦映射将高维激活映射到概念环面上，并投影到双E8格点半球上。完全用几何瓶颈替换MLP层会导致模型普遍崩溃。相反，我实现了一种残差混合： $$\text{输出} = (1-\beta)\cdot\text{原始} + \beta\cdot\text{几何}$$ --- ### $\beta = 0.20$ 扫描（Qwen2.5-0.5B）对 `Qwen2.5-0.5B` 的第8–13层扫描 $\beta$ 从0.10到0.50，揭示了一个尖锐的相变： * **$\beta \ge 0.25$**：生成陷入严重的重复压力和语义漂移。几何结构充当吸引子，困住解码过程（"循环锁定"）。 * **$\beta = 0.20$**：稳定性边界。这是有损几何信号注入的最高比例，既能维持数值激活保真度（平均余弦 > 0.99），又能保持开放式生成质量（低重复n-gram）。 * **$\beta \le 0.10$**：扰动被Transformer的层归一化大量吸收和衰减，使干预不可见。以下是300次迭代扫描的数据： | $\beta$ | 最小余弦 | 平均余弦 | 最大MSE | 重复率(Rep-3g) | | :--- | :--- | :--- | :--- | :--- | | 0.10 | 0.9972 | 0.9979 | 0.0024 | 0.134 | | **0.20** | **0.9907** | **0.9916** | **0.0106** | **0.093** | | 0.25 | 0.9839 | 0.9865 | 0.0171 | 0.084 | | 0.30 | 0.9648 | 0.9771 | 0.0255 | 0.190 | | 0.50 | 0.9171 | 0.9288 | 0.0850 | 0.412 | 语义评分（评估提示相关性和与未修改基线的相似度）： | $\beta$ | 平均余弦 | 重复率(Rep-3g) | 相关性 | 修补版与基线相似度 | | :--- | :--- | :--- | :--- | :--- | | 0.10 | 0.9980 | 0.223 | 0.781 | 0.889 | | **0.20** | **0.9918** | **0.075** | **0.752** | **0.854** | | 0.25 | 0.9871 | 0.232 | 0.717 | 0.801 | | 0.30 | 0.9760 | 0.392 | 0.725 | 0.764 | --- ### 泛化（1.5B和3B模型） $\beta = 0.20$ 边界在更大的模型规模（`Qwen2.5-1.5B` 和 4-bit `Qwen2.5-3B`）上，在激活余弦轴线上泛化： | 模型 | $\beta$ | 最小余弦 | 平均余弦 | 最大MSE | 重复率(Rep-3g) | | :--- | :--- | :--- | :--- | :--- | :--- | | **1.5B** | 0.10 | 0.9988 | 0.9989 | 0.0027 | 0.267 | | | **0.20** | **0.9862** | **0.9939** | **0.0105** | **0.128** | | | 0.25 | 0.9904 | 0.9919 | 0.0166 | 0.398 | | | 0.30 | 0.9733 | 0.9815 | 0.0235 | 0.307 | | | 0.40 | 0.9368 | 0.9551 | 0.0487 | 0.191 | | **3B (4-bit)** | 0.10 | 0.9964 | 0.9976 | 0.0122 | 0.033 | | | **0.20** | **0.9861** | **0.9904** | **0.0455** | **0.115** | | | 0.25 | 0.9604 | 0.9799 | 0.0654 | 0.043 | | | 0.30 | 0.9702 | 0.9778 | 0.0987 | 0.050 | | | 0.40 | 0.9158 | 0.9390 | 0.1728 | 0.025 | *注：在3B模型中，所有扫描的重复压力保持较低，但验证余弦在 $\beta \ge 0.25$ 时同样退化。* 我还测试了逐层振荡的 $\beta$ 调度（例如跨层的正弦波），但与固定的恒定注入比例相比，它们降低了开放式文本质量。 --- ### 存储压缩原型利用双E8/E16格点作为计算基底，在早期原型中也实现了较高的理论存储效率： 1. **KV 缓存（8倍）**：FP16 KV 缓存压缩为 INT8 坐标，占用从0.21 MB减少到0.02 MB。 2. **权重（112倍）**：将密集的 $[4864, 896]$ MLP 权重矩阵投影到0.07 MB的E16足迹上。（未校准的权重矩阵乘法的余弦相似度限制在 $\sim$0.078，表明量化感知训练对于参数可行性是必需的）。设计了一种**预投影解压旁路**，可以直接对格点坐标进行矩阵乘法而无需上采样，避免了内存带宽瓶颈。 --- ### 策略约束（负面结果）我评估了残差E16投影是否可以作为执行安全策略的引导基板。结论是否定的。虽然 $\beta = 0.20$ 保持了生成质量，但E16投影的有损特性剥离了维持严格边界所需的逻辑细微差别。专用监督控制头仍然是必需的。 --- ### 启示与下一步将训练后的激活固定到代数格点上终究是有损的。真正的前沿是**原生几何Transformer**——从零开始设计并训练具有E8/E16约束的网络，这些约束原生嵌入权重矩阵和激活路由中。

查看原文

相似文章

2倍 tok/s（在1块MI50上从19.4 tok/s提升到38.1 tok/s）尝试类似推测解码的假设……但不是用额外的侧模型，而是利用我可以同时运行多个计算，就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。

Reddit r/LocalLLaMA

打包双推理（PTI）是一种通过单批解码中运行多个token序列来实现约2倍LLM吞吐量的技术，它利用了llama.cpp中的权重共享，无需草稿模型或额外VRAM。

AI slop? 谁知道呢~

相似文章

更多 AI 垃圾可以随便玩玩~

2倍 tok/s（在1块MI50上从19.4 tok/s提升到38.1 tok/s）尝试类似推测解码的假设……但不是用额外的侧模型，而是利用我可以同时运行多个计算，就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。

Orthrus-Qwen3-8B：在Qwen3-8B上实现高达7.8倍每前向传播token数，冻结主干网络，可证明输出分布一致

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题：“我们能否直接在推理时循环一个冻结的、现成的检查点…

提交意见反馈