sglang

标签

Cards List
#sglang

用一个 Python 字典将多模态推理性能提升超 10%

Hacker News Top · 3天前 缓存

Modal 的工程师对 SGLang 调度器在多模态 VLM 工作负载下进行了性能分析,发现将开销较大的 GPU 显存记录操作替换为一个简单的 Python 字典缓存后,吞吐量提升了 16%,延迟降低了超过 13%。该修复已合并至 SGLang v0.5.10。

0 人收藏 0 人点赞
#sglang

z-lab/gemma-4-31B-it-DFlash

Hugging Face Models Trending · 2026-04-30 缓存

Z-lab 发布了 DFlash,这是一种用于 Gemma-4-31B-it 的投机解码草稿模型,采用轻量级块扩散并行生成多个 token,相较于自回归基线实现了最高 5.8 倍的加速。

0 人收藏 0 人点赞
#sglang

@0xSero:GLM-5.1-478B-NVFP4 跑在:4×RTX Pro 6000、SGLang,最大 37 万 token(1.75× 满上下文),p10 27.7 | p90 45…

X AI KOLs Timeline · 2026-04-21 缓存

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行,支持 37 万 token 上下文,解码最高 45 tok/s,预填充 1340 tok/s,并现场演示操控 Figma。

0 人收藏 0 人点赞
#sglang

@0xSero:关于 LLM 推理与部署,看这一篇就够了。你听说过:- vLLM - SGLang - llama.cpp - …

X AI KOLs Timeline · 2026-04-20 缓存

vLLM、SGLang、llama.cpp 与 ExLlamaV3 等主流开源推理引擎概览,助你轻松托管并运行大模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈