标签
一种名为 luce spark 的技术让 Qwen 35B-a3B MoE 模型能够在16GB GPU(如RTX 3090)上运行,通过学习哪些专家被频繁使用,并将其余专家从内存流式加载,实现约100 tok/s,且不受显存瓶颈限制。
一种新颖的两步消融技术(ASPA)应用于Gemma-4-12B,实现了零拒绝率和零能力损失,通过源锚定恢复基准性能。
Fern 宣布了一种新的正则化技术,解决了 SolidGoldMagikarp 稳定性问题,详情将在后续帖子中说明。
解释如何使用Claude执行事前验尸(premortem),这是丹尼尔·卡尼曼提出的一种技术,通过想象计划已经失败来对其进行压力测试。
作者描述了一种称为'Stream of Consciousness Driven Development'的技术,在结对编程中,他们在做出更改前先编写一份详细的markdown文件来探究问题和解决方案,以确保双方都完全理解其中的推理。