llama-cpp

#llama-cpp

可能是个愚蠢的问题，但如何为多个用户提供完整的上下文长度？

Reddit r/LocalLLaMA ↗ · 2026-06-15

用户询问llama.cpp如何为每个用户提供完整的上下文长度，并指出它似乎只是共享上下文池，而不是为每个用户提供专用上下文。

0 人收藏 0 人点赞

#llama-cpp

从零搭建本地AI编程代理

Reddit r/ArtificialInteligence ↗ · 2026-06-15 缓存

一份逐步指南，介绍如何构建一个完全本地运行的最小化AI编码代理，使用llama.cpp、GGUF模型和自定义工具框架，演示如何设置工具并调用模型执行实际任务，例如创建着陆页。

0 人收藏 0 人点赞

#llama-cpp

@iluciddreaming: 玩了两个月本地 LLM。用 Windows 11 + llama.cpp + llama-swap 狂测各种开源模型，这是我的最终成绩单：硬件：i7-13700 + 64GB RAM + RTX 4070 目前最能打的组合是 gemm…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

经过两个月本地 LLM 测试，作者认为 gemma-4-12B-it-QAT 和 MTP 辅助组合在速度和可用性上表现最佳，硬件为 i7-13700 + 64GB RAM + RTX 4070。

0 人收藏 0 人点赞

#llama-cpp

@zhixianio: 试完了，感觉还挺大跌眼镜的，不知道是不是我打开的方式不对，欢迎大家给出反例。接下来是我测的结果：在 M5 Max 上，拿这个社区微调版 gemma-4-12B-coder （llama.cpp）对打我日常在用的 Qwen3.6-35B-…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

用户测试了社区微调版 gemma-4-12B-coder 与 Qwen3.6-35B-A3B MoE 在三个编程任务上的表现，发现 gemma 在复杂有状态程序上表现不佳，而 Qwen 35B 依然稳健。

0 人收藏 0 人点赞

#llama-cpp

@iotcoi: Microsoft 刚刚发布了 FastContext-1.0：一个开源仓库侦察工具，用于降低你的 Copilot 账单 GGUF on HF。在本地运行…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

Microsoft 发布了 FastContext-1.0，这是一个开源仓库侦察工具，可在本地使用 llama.cpp 运行，通过扫描文件并仅向主代理提供相关上下文来降低 Copilot 成本。

0 人收藏 0 人点赞

#llama-cpp

@TraffAlex: 消费级GPU的最佳本地LLM——llama.cpp指南（2026年6月）我目前在消费级硬件上实际运行的内容。Eve…

X AI KOLs Timeline ↗ · 2026-06-14 缓存

截至2026年6月，面向消费级GPU的最佳本地LLM指南，使用llama.cpp在8-32GB显存上运行如Gemma 4-12B、Qwen3.6-27B和Nex-N2-Mini等模型，包含设置和启动命令。

0 人收藏 0 人点赞

#llama-cpp

面向Qwens的WIP EAGLE3

Reddit r/LocalLLaMA ↗ · 2026-06-13 缓存

llama.cpp中面向Qwen模型的EAGLE3推测解码的开发中实现。

0 人收藏 0 人点赞

#llama-cpp

为 cohere2-MoE 添加架构支持，由 michaelw9999 · 拉取请求 #24260 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-13 缓存

此拉取请求为 llama.cpp 添加了 cohere2-MoE 模型的架构支持，实现了对该混合专家模型（Mixture of Experts）的推理。

0 人收藏 0 人点赞

#llama-cpp

Feral v0.2.0 - 开源本地AI工作空间（llama.cpp + BYOK + 代理运行时），现已支持Windows、macOS和Linux。无遥测，无订阅，MIT/Apache-2.0协议

Reddit r/AI_Agents ↗ · 2026-06-12

Feral v0.2.0是一个开源本地AI工作空间，通过llama.cpp运行GGUF模型，支持云端模型的BYOK，包含带有沙盒工具和知识图谱的代理运行时，现已发布Windows、macOS和Linux版本，无遥测，无订阅。

0 人收藏 0 人点赞

#llama-cpp

如何在macOS上设置本地编码代理

Hacker News Top ↗ · 2026-06-12 缓存

一份关于在macOS上使用Gemma 4与MTP草稿模型及llama.cpp设置本地编码代理的详细教程，通过投机解码实现了约24%的速度提升。

0 人收藏 0 人点赞

#llama-cpp

PWA 支持已合并

Reddit r/LocalLLaMA ↗ · 2026-06-12

PWA 支持已合并到 llama.cpp 中，使得 llama-server 网页 UI 可以像原生应用一样安装，具有独立窗口模式和合适的图标。

0 人收藏 0 人点赞

#llama-cpp

@juanjucm: 最近看到很多人发火……记住，你完全可以在本地运行你的编码代理 ;) llama.cpp + OpenCo…

X AI KOLs Following ↗ · 2026-06-12 缓存

一条推文提醒开发者，他们可以使用 llama.cpp 和 OpenCode 在本地运行编码代理，实现快速、可靠且私密的推理，并展示了使用 UnslothAI 的 North-Mini-Code-1.0-GGUF 模型的效果。

0 人收藏 0 人点赞

#llama-cpp

并非所有 MTP 辅助模型都生而平等

Reddit r/LocalLLaMA ↗ · 2026-06-12

关于 llama.cpp 中结合 Gemma 4 模型的 MTP 投机解码的详细技术探索，表明辅助模型的选择和量化对加速效果有显著影响，且并非所有“同名”的辅助模型表现相同。

0 人收藏 0 人点赞

#llama-cpp

EAGLE3 已登陆 llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-12 缓存

EAGLE3 是一种推测性解码方法，现已集成到 llama.cpp 中，能够实现更快的推理。

0 人收藏 0 人点赞

#llama-cpp

PSA：测试你在 llama.cpp 中的“线程”参数（我的情况提升了 80% 的性能）

Reddit r/LocalLLaMA ↗ · 2026-06-12

一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试，发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能，并分享了最佳命令配置。

0 人收藏 0 人点赞

#llama-cpp

如何防止 llama.cpp 将数据卸载到交换空间？

Reddit r/LocalLLaMA ↗ · 2026-06-11

用户寻求关于如何防止 llama.cpp 在 RAM 完全耗尽前将 KV 缓存卸载到交换空间的建议，并分享了他们在配备 96GB RAM 的 M2 Max 和大型 Qwen 模型上的配置。

0 人收藏 0 人点赞

#llama-cpp

移除MTP中的填充和多重D2D拷贝 - 由gaugarg-nv提交 · 拉取请求#24086 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-10 缓存

一个针对 llama.cpp 的拉取请求，移除了多令牌预测 (MTP) 中的填充和多重设备到设备拷贝，提高了 GPU 上的性能。

0 人收藏 0 人点赞

#llama-cpp

unsloth/diffusiongemma-26B-A4B-it-GGUF

Hugging Face Models Trending ↗ · 2026-06-10 缓存

Unsloth 发布了 Google DeepMind 的 DiffusionGemma (26B-A4B) 的 GGUF 量化版本，这是一种新的块扩散架构，可实现更快的文本生成，已准备好用于 llama.cpp。

0 人收藏 0 人点赞

#llama-cpp

@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行，拥有 248K Token 上下文窗口，每秒 20 个 Token，上下文窗口大得可以……

X AI KOLs Timeline ↗ · 2026-06-10 缓存

Gemma 4 26B 在 RTX 4060 上运行，通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度，从而在消费级硬件上本地处理整个代码库。

0 人收藏 0 人点赞

#llama-cpp

针对短时LLM运行的云GPU存储费用高昂。你的工作流程是怎样的？

Reddit r/AI_Agents ↗ · 2026-06-10

用户寻求针对短时LLM测试会话的成本效益云GPU工作流程建议，强调在运行之间保留环境时存储费用是主要痛点。

0 人收藏 0 人点赞

llama-cpp

提交意见反馈