llama.cpp speculative checkpointing 已合并

Reddit r/LocalLLaMA 工具

摘要

[https://github.com/ggml-org/llama.cpp/pull/19493](https://github.com/ggml-org/llama.cpp/pull/19493) 部分提示词能加速,部分则不能(草稿接受率低的情况)。有效的工作参数取决于任务类型和重复模式。对于编码任务,我使用以下参数获得了约 0%~50% 的加速:--spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 48 --draft-max 64

[https://github.com/ggml-org/llama.cpp/pull/19493](https://github.com/ggml-org/llama.cpp/pull/19493) 部分提示词能加速,部分则不能(草稿接受率低的情况)。有效的工作参数取决于任务类型和重复模式。对于编码任务,我使用以下参数获得了约 0%~50% 的加速:--spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 48 --draft-max 64
查看原文

相似文章

vllm-project/vllm v0.20.0rc1

GitHub Releases Watchlist

vLLM 0.20.0rc1 发布,带来吞吐量、量化、投机解码及多硬件支持的重大改进,助力可扩展的大模型推理服务。

通过序列蒙特卡洛加速LLM推理

arXiv cs.CL

本文提出了序列蒙特卡洛推测解码(SMC-SD),一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法,在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速,相比自回归解码实现5.2倍加速。