llama-cpp

标签

#llama-cpp

CachyLLama：一个带有持久化KV缓存的llama.cpp分支，让长时间本地代理会话不再那么痛苦

Reddit r/LocalLLaMA ↗ · 19小时前

CachyLLama是llama.cpp的一个分支，它增加了基于SSD的持久化KV缓存和多层缓存，显著减少了在较慢硬件上长时间本地代理会话的提示重新处理时间。

0 人收藏 0 人点赞

#llama-cpp

本地测试（更新后的）Gemma 4在OpenCode中的编码表现

Reddit r/LocalLLaMA ↗ · 昨天

在M5 Pro上使用llama.cpp本地测试了更新后的Gemma 4，使用OpenCode进行编码任务时达到60 tokens/s；后端表现良好，但UI/UX不佳。

0 人收藏 0 人点赞

#llama-cpp

Laguna-S-2.1 "无限思考"循环似乎是量化伪影

Reddit r/LocalLLaMA ↗ · 昨天

文章报告称，Laguna S 2.1 AI模型中的无限思考循环很可能是由量化伪影引起的。切换到MoE感知的APEX量化（例如Myric/Laguna-S-2.1-APEX-GGUF）并使用默认采样设置（温度0.7，top_p 0.95，top_k 20）解决了大多数情况下的循环问题。此外，将提示框定在工具调用周围可以防止过度思考。

0 人收藏 0 人点赞

#llama-cpp

Apple M5 尚未充分利用其矩阵乘法核心

Reddit r/LocalLLaMA ↗ · 昨天

Apple M5 芯片支持矩阵乘法中的 INT8 激活，但 MLX 和 Llama.cpp 等推理后端目前仍使用 16 位；自定义 w8a8 内核在 Gemma4 预填充任务上实现了高达 1.4 倍的加速。

0 人收藏 0 人点赞

#llama-cpp

关于Laguna S-2.1的重要通知：使用更新后的聊天模板和GGUF文件

Reddit r/LocalLLaMA ↗ · 昨天

Laguna S-2.1模型已更新，修复了yarn_attn_factor（已修正为1.0），并改进了聊天模板，修复了损坏的思维过程、保留了思维链，并支持工具调用。建议用户使用官方仓库中更新的GGUF文件。

0 人收藏 0 人点赞

#llama-cpp

16块AMD MI50 32GB：GLM-5.2 Q4 在 llama.cpp RPC 上以 12.2 tok/s 运行

Reddit r/LocalLLaMA ↗ · 2天前

描述了在由16块AMD MI50 GPU组成的集群上，使用llama.cpp的RPC以4位量化运行GLM-5.2模型，达到12.2令牌每秒的速度，并在10.7k上下文中实现了连贯的长文本生成。

0 人收藏 0 人点赞

#llama-cpp

添加对 Laguna XS.2 和 M.1 的支持，作者 joerowell · Pull Request #25165 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 3天前缓存

该拉取请求为 llama.cpp 添加了对 Laguna XS.2 和 M.1 硬件的支持，扩展了兼容性。

0 人收藏 0 人点赞

#llama-cpp

MoE的VRAM磁盘缓存使单块DGX Spark上的Kimi 2.7达到340 pp/s和9.6 tg/s

Reddit r/LocalLLaMA ↗ · 3天前

一种详细策略，通过将VRAM用作磁盘缓存，结合统一内存和llama.cpp设置，在单块DGX Spark上为Kimi K2.7实现了340 pp/s和9.6 tg/s。

0 人收藏 0 人点赞

#llama-cpp

pi 0.81.0 增加了对 llama.cpp 的支持

Reddit r/LocalLLaMA ↗ · 3天前缓存

Pi 0.81.0 增加了对 llama.cpp 的支持，从而能够在 Pi 编码代理环境中进行本地 LLM 推理。

0 人收藏 0 人点赞

#llama-cpp

@sudoingX：每天都有人问我如何在理论上跑不动的硬件上运行bonsai 27b。所以这里全部内容在此……

X AI KOLs Timeline ↗ · 4天前缓存

一份详细指南，介绍如何在仅有8GB显存的硬件上运行27B Bonsai模型，使用1位量化版本和PrismML分支的llama.cpp，包含精确的服务器命令和配置。

0 人收藏 0 人点赞

#llama-cpp

使用llama.cpp在GStreamer中进行本地LLM文本翻译或转换

Reddit r/LocalLLaMA ↗ · 4天前缓存

一个新的GStreamer元素集成了llama.cpp，使得在多媒体管道中能够基于本地LLM进行文本翻译和转换，从而实现实时字幕生成和改写。

0 人收藏 0 人点赞

#llama-cpp

我对Qwen 3.8在代理编码中的初步看法

Reddit r/LocalLLaMA ↗ · 5天前

对使用Qwen 3.8模型进行代理编码的个人评测，称赞其处理复杂任务（如将llama.cpp与Godot集成）的能力，同时指出存在循环问题。

0 人收藏 0 人点赞

#llama-cpp

@MaziyarPanahi：我在Mac Studio上体验了Thinking Machines的新Inkling，一个2分钟的问诊。患者因膝盖问题前来……

X AI KOLs Timeline ↗ · 2026-07-16 缓存

Thinking Machines的Inkling是一个975B参数模型，通过llama.cpp在Mac Studio上本地运行。它听取了一段问诊音频，从闲聊中的细微线索准确诊断出心力衰竭，展示了无需离开本机的先进医学推理能力。

0 人收藏 0 人点赞

#llama-cpp

@ciruai：终于，在智能模型上为16GB显卡实现了256k上下文，并且速度飞快！使用4080 Super 16GB，我向您展示如何获取完整…

X AI KOLs Timeline ↗ · 2026-07-16 缓存

演示如何使用Ternary Bonsai 27B Q2_0模型和llama.cpp在16GB RTX 4080 Super上实现256k上下文，生成速度高达141 tok/s。

0 人收藏 0 人点赞

#llama-cpp

@Xudong07452910: 一个 295B 参数的旗舰大模型，现在单张 96GB 推理显卡就能跑，而且解码速度还提升了 50%。腾讯混元团队为 Hy3（295B 参数）推出量化版本。1bit 版本（IQ1_M）把权重从 598GB 压缩到 85.5GB，缩小 6.…

X AI KOLs Timeline ↗ · 2026-07-16 缓存

腾讯混元团队为295B参数的Hy3大模型推出量化版本，1bit版本可将权重压缩至85.5GB，使单张96GB推理显卡即可部署，解码速度提升约50%，并开源GGUF格式，兼容llama.cpp生态。

0 人收藏 0 人点赞

#llama-cpp

Qwen3.6:35b UD Q4_K_M 在 Nvidia P40 上实现 80 tok/s

Reddit r/LocalLLaMA ↗ · 2026-07-15

一位用户分享在单个 Nvidia P40 上使用 TheTom 的 TurboQuant 版 llama.cpp，以 Q4_K_M 量化方式和 100k 上下文运行 Qwen3.6 35B 模型，实现了 80 tok/s，并强调了多种优化。

0 人收藏 0 人点赞

#llama-cpp

Bonsai-27B 和 Ternary-Bonsai-27B 的更新（PR 相关）

Reddit r/LocalLLaMA ↗ · 2026-07-15

更新了 Bonsai-27B 和 Ternary-Bonsai-27B 模型，详细介绍了在 llama.cpp 中 CPU、Metal、CUDA、Vulkan 后端的上游合并状态，并讨论了模型的局限性和路线图。

0 人收藏 0 人点赞

#llama-cpp

@AgentSparko: 我在DGX Spark上测试了PrismML Bonsai 27B，但我觉得在构建llama.cpp时好像搞错了什么，因为速度…

X AI KOLs Timeline ↗ · 2026-07-15 缓存

用户测试了PrismML的新Bonsai 27B模型在Nvidia DGX Spark上的表现，报告了基准测试速度以及llama.cpp构建的问题，同时PrismML宣布该模型是首款能在手机上运行的27B级模型。

0 人收藏 0 人点赞

#llama-cpp

如何在8位字节中打包三进制数

Hacker News Top ↗ · 2026-07-14 缓存

一篇博客文章，描述了一种高效的方法，使用SIMD友好的解包将三进制数打包到8位字节中，实现了每trit 1.6比特，并应用于LLM权重量化如BitNet b1.58。

0 人收藏 0 人点赞

#llama-cpp

Spiritbuun 的 VBR（可变比特率）KV 缓存 —— 初印象

Reddit r/LocalLLaMA ↗ · 2026-07-14

一篇对 Spiritbuun 的 llama.cpp 分支的赞赏文章，重点介绍了其新的可变比特率（VBR）KV 缓存功能，该功能动态降低缓存精度以适应 VRAM，从而实现更大的自动适配上下文大小且速度损失极小。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈