b9180 llama.cpp MTP 已落地
摘要
llama.cpp 版本 b9180 已发布,支持多令牌预测 (MTP)。此次发布标志着构建成功,开发者们如释重负。
全国各地,许多显示器上 cmake 显示绿色,人们兴奋地期待着。我们应该给 GG 和兄弟们送些什么,好让他们休息一下去吃晚饭,因为我相信这一定是个让人头疼的大难题
相似文章
b9200 发布 - 潜在 MTP 提示处理速度提升
llama.cpp 版本 b9200 通过避免不必要的 logits 复制,减少了内存流量,从而提升了多令牌预测(MTP)的提示处理速度。
MTP 支持已合并至 llama.cpp
为 llama.cpp 添加 MTP(多令牌预测)支持的拉取请求已合并至 master 分支。
这是个好消息...
多令牌预测(MTP)已获批准集成到llama.cpp中,表明本地LLM推理工具即将更新。
llama + spec: 由 am17an 提交的 MTP 支持 · Pull Request #22673 · ggml-org/llama.cpp
拉取请求为 llama.cpp 添加多令牌预测(MTP)支持,启用推测解码以加速推理。
@ivanfioravanti: llamacpp 即将支持 MTP!
llamacpp 即将支持多令牌预测(MTP),提升推理效率。