@no_stp_on_snek: 长上下文实验的小更新：我在单个 MI300X droplet 上使用开源栈成功将 MRCR v2 运行到 1M 上下文长度。

X AI KOLs Following 2026/05/07 15:30 新闻

long-context mrcr qwen2.5 retrieval-augmented-generation hardware-efficiency benchmarking

摘要

作者报告成功在单个 MI300X 上使用 Qwen2.5-32B 和 FAISS 运行 MRCR v2，实现 1M 上下文长度，并以低成本获得有竞争力的分数。

长上下文实验的小更新：我在单个 MI300X droplet 上使用开源栈成功将 MRCR v2 运行到 1M。Apache-2.0 许可的 Qwen2.5-32B + FAISS + 检索/选择器管道。当前数据：8K: 0.822, 32K: 0.697, 64K 分块: 0.670, 1M 质量验证: 0.601 (n=60)。SubQ 公布的 1M 分数是 0.659，所以当前差距为 0.058。到目前为止花费：<50 美元的 AMD 授予的 DO 积分。没有新颖的注意力机制，没有定制架构，没有私有模型。仍在继续工作中。另外，数据中没有 KV 压缩循环。

查看原文

@no_stp_on_snek: 长上下文实验的小更新：我在单个 MI300X droplet 上使用开源栈成功将 MRCR v2 运行到 1M 上下文长度。

相似文章

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

@no_stp_on_snek：mrcr v2 在 1m 长度下完成 8-needle 测试，采用开源权重堆栈，仅单台租赁 mi300x。longctx directional 0.688（n=30，mass-val 重跑待更新…

@0xSero: Minimax-M3 在 4 块 RTX Pro 6000 上运行 - 800k 上下文 - 4 路并发 (250k) - 70-120 tok/s - 2000 tok/s 预填充无缓存…

产品经理实测 M3 的百万级别上下文在真实 Q3 简报中的表现：哪里稳定，哪里失效

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

提交意见反馈