sglang

#sglang

用一个 Python 字典将多模态推理性能提升超 10%

Hacker News Top ↗ · 3天前缓存

Modal 的工程师对 SGLang 调度器在多模态 VLM 工作负载下进行了性能分析，发现将开销较大的 GPU 显存记录操作替换为一个简单的 Python 字典缓存后，吞吐量提升了 16%，延迟降低了超过 13%。该修复已合并至 SGLang v0.5.10。

0 人收藏 0 人点赞

#sglang

Hugging Face Models Trending ↗ · 2026-04-30 缓存

Z-lab 发布了 DFlash，这是一种用于 Gemma-4-31B-it 的投机解码草稿模型，采用轻量级块扩散并行生成多个 token，相较于自回归基线实现了最高 5.8 倍的加速。

0 人收藏 0 人点赞

#sglang

X AI KOLs Timeline ↗ · 2026-04-21 缓存

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行，支持 37 万 token 上下文，解码最高 45 tok/s，预填充 1340 tok/s，并现场演示操控 Figma。

0 人收藏 0 人点赞

#sglang

X AI KOLs Timeline ↗ · 2026-04-20 缓存

vLLM、SGLang、llama.cpp 与 ExLlamaV3 等主流开源推理引擎概览，助你轻松托管并运行大模型。

0 人收藏 0 人点赞