@no_stp_on_snek: 长上下文实验的小更新:我在单个 MI300X droplet 上使用开源栈成功将 MRCR v2 运行到 1M 上下文长度。
摘要
作者报告成功在单个 MI300X 上使用 Qwen2.5-32B 和 FAISS 运行 MRCR v2,实现 1M 上下文长度,并以低成本获得有竞争力的分数。
长上下文实验的小更新:我在单个 MI300X droplet 上使用开源栈成功将 MRCR v2 运行到 1M。Apache-2.0 许可的 Qwen2.5-32B + FAISS + 检索/选择器管道。当前数据:8K: 0.822, 32K: 0.697, 64K 分块: 0.670, 1M 质量验证: 0.601 (n=60)。SubQ 公布的 1M 分数是 0.659,所以当前差距为 0.058。到目前为止花费:<50 美元的 AMD 授予的 DO 积分。没有新颖的注意力机制,没有定制架构,没有私有模型。仍在继续工作中。另外,数据中没有 KV 压缩循环。
相似文章
@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384
使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈,在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型(0.659)相竞争的结果(0.601-0.688),表明开源权重方法已接近达到同等水平。
@no_stp_on_snek:mrcr v2 在 1m 长度下完成 8-needle 测试,采用开源权重堆栈,仅单台租赁 mi300x。longctx directional 0.688(n=30,mass-val 重跑待更新…
分享了一套开源模型堆栈在单卡 AMD MI300X 上运行的早期基准测试成绩与评估指标,表明其性能已具备与闭源方案竞争的实力。
@0xSero: Minimax-M3 在 4 块 RTX Pro 6000 上运行 - 800k 上下文 - 4 路并发 (250k) - 70-120 tok/s - 2000 tok/s 预填充无缓存…
Minimax-M3 被演示在 4 块 RTX Pro 6000 GPU 上运行,具备 800k 上下文,在 4 路并发下达到 70-120 tok/s 推理速度和 2000 tok/s 预填充速度,使用 376GB VRAM 和 mxfp4 格式。
产品经理实测 M3 的百万级别上下文在真实 Q3 简报中的表现:哪里稳定,哪里失效
一位产品经理分享了在真实 Q3 战略简报上对 Minimax M3 的 1M 上下文窗口的实操测试,指出在约 20 万 token 以内来源归因很准确,但超过后综合能力下降。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。