batch-inference

#batch-inference

2倍 tok/s（在1块MI50上从19.4 tok/s提升到38.1 tok/s）尝试类似推测解码的假设……但不是用额外的侧模型，而是利用我可以同时运行多个计算，就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。

Reddit r/LocalLLaMA ↗ · 2026-06-09 缓存

打包双推理（PTI）是一种通过单批解码中运行多个token序列来实现约2倍LLM吞吐量的技术，它利用了llama.cpp中的权重共享，无需草稿模型或额外VRAM。

0 人收藏 0 人点赞

#batch-inference

Hacker News Top ↗ · 2026-05-29 缓存

Tiny-vLLM是一个高性能的LLM推理引擎，采用C++和CUDA实现，提供连续批处理和PagedAttention等特性，并作为教育资源。

1 人收藏 1 人点赞

#batch-inference

X AI KOLs Following ↗ · 2026-05-21 缓存

Snowflake现在支持基于Ray的作业级批量推理，通过单一API调用即可在数百万非结构化数据点上执行分布式GPU，从而扩展模型推理。

0 人收藏 0 人点赞