@no_stp_on_snek: 长上下文实验的小更新:我在单个 MI300X droplet 上使用开源栈成功将 MRCR v2 运行到 1M 上下文长度。

X AI KOLs Following 新闻

摘要

作者报告成功在单个 MI300X 上使用 Qwen2.5-32B 和 FAISS 运行 MRCR v2,实现 1M 上下文长度,并以低成本获得有竞争力的分数。

长上下文实验的小更新:我在单个 MI300X droplet 上使用开源栈成功将 MRCR v2 运行到 1M。Apache-2.0 许可的 Qwen2.5-32B + FAISS + 检索/选择器管道。当前数据:8K: 0.822, 32K: 0.697, 64K 分块: 0.670, 1M 质量验证: 0.601 (n=60)。SubQ 公布的 1M 分数是 0.659,所以当前差距为 0.058。到目前为止花费:<50 美元的 AMD 授予的 DO 积分。没有新颖的注意力机制,没有定制架构,没有私有模型。仍在继续工作中。另外,数据中没有 KV 压缩循环。
查看原文

相似文章

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈,在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型(0.659)相竞争的结果(0.601-0.688),表明开源权重方法已接近达到同等水平。