标签
对Qwen3.6-35B-A3B应用保范Abliteration技术,实现0%拒绝率,基准测试性能保持不变,并发布了开源数据集。
论文介绍了YB-Mixer,这是一种从广义杨-巴克斯特方程推导出的令牌混合层,具有精确的范数保持、深度稳定特性,并支持无顺序推理和可变预算推理。与注意力机制和状态空间基线相比,它在长程记忆任务上以更少的参数实现了具有竞争力的性能。