llama-cpp

标签

Cards List
#llama-cpp

可能是个愚蠢的问题,但如何为多个用户提供完整的上下文长度?

Reddit r/LocalLLaMA · 2026-06-15

用户询问llama.cpp如何为每个用户提供完整的上下文长度,并指出它似乎只是共享上下文池,而不是为每个用户提供专用上下文。

0 人收藏 0 人点赞
#llama-cpp

从零搭建本地AI编程代理

Reddit r/ArtificialInteligence · 2026-06-15 缓存

一份逐步指南,介绍如何构建一个完全本地运行的最小化AI编码代理,使用llama.cpp、GGUF模型和自定义工具框架,演示如何设置工具并调用模型执行实际任务,例如创建着陆页。

0 人收藏 0 人点赞
#llama-cpp

@iluciddreaming: 玩了两个月本地 LLM。 用 Windows 11 + llama.cpp + llama-swap 狂测各种开源模型,这是我的最终成绩单: 硬件:i7-13700 + 64GB RAM + RTX 4070 目前最能打的组合是 gemm…

X AI KOLs Timeline · 2026-06-15 缓存

经过两个月本地 LLM 测试,作者认为 gemma-4-12B-it-QAT 和 MTP 辅助组合在速度和可用性上表现最佳,硬件为 i7-13700 + 64GB RAM + RTX 4070。

0 人收藏 0 人点赞
#llama-cpp

@zhixianio: 试完了,感觉还挺大跌眼镜的,不知道是不是我打开的方式不对,欢迎大家给出反例。接下来是我测的结果: 在 M5 Max 上,拿这个社区微调版 gemma-4-12B-coder (llama.cpp)对打我日常在用的 Qwen3.6-35B-…

X AI KOLs Timeline · 2026-06-15 缓存

用户测试了社区微调版 gemma-4-12B-coder 与 Qwen3.6-35B-A3B MoE 在三个编程任务上的表现,发现 gemma 在复杂有状态程序上表现不佳,而 Qwen 35B 依然稳健。

0 人收藏 0 人点赞
#llama-cpp

@iotcoi: Microsoft 刚刚发布了 FastContext-1.0:一个开源仓库侦察工具,用于降低你的 Copilot 账单 GGUF on HF。在本地运行…

X AI KOLs Timeline · 2026-06-15 缓存

Microsoft 发布了 FastContext-1.0,这是一个开源仓库侦察工具,可在本地使用 llama.cpp 运行,通过扫描文件并仅向主代理提供相关上下文来降低 Copilot 成本。

0 人收藏 0 人点赞
#llama-cpp

@TraffAlex: 消费级GPU的最佳本地LLM——llama.cpp指南(2026年6月)我目前在消费级硬件上实际运行的内容。Eve…

X AI KOLs Timeline · 2026-06-14 缓存

截至2026年6月,面向消费级GPU的最佳本地LLM指南,使用llama.cpp在8-32GB显存上运行如Gemma 4-12B、Qwen3.6-27B和Nex-N2-Mini等模型,包含设置和启动命令。

0 人收藏 0 人点赞
#llama-cpp

面向Qwens的WIP EAGLE3

Reddit r/LocalLLaMA · 2026-06-13 缓存

llama.cpp中面向Qwen模型的EAGLE3推测解码的开发中实现。

0 人收藏 0 人点赞
#llama-cpp

为 cohere2-MoE 添加架构支持,由 michaelw9999 · 拉取请求 #24260 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 2026-06-13 缓存

此拉取请求为 llama.cpp 添加了 cohere2-MoE 模型的架构支持,实现了对该混合专家模型(Mixture of Experts)的推理。

0 人收藏 0 人点赞
#llama-cpp

Feral v0.2.0 - 开源本地AI工作空间(llama.cpp + BYOK + 代理运行时),现已支持Windows、macOS和Linux。无遥测,无订阅,MIT/Apache-2.0协议

Reddit r/AI_Agents · 2026-06-12

Feral v0.2.0是一个开源本地AI工作空间,通过llama.cpp运行GGUF模型,支持云端模型的BYOK,包含带有沙盒工具和知识图谱的代理运行时,现已发布Windows、macOS和Linux版本,无遥测,无订阅。

0 人收藏 0 人点赞
#llama-cpp

如何在macOS上设置本地编码代理

Hacker News Top · 2026-06-12 缓存

一份关于在macOS上使用Gemma 4与MTP草稿模型及llama.cpp设置本地编码代理的详细教程,通过投机解码实现了约24%的速度提升。

0 人收藏 0 人点赞
#llama-cpp

PWA 支持已合并

Reddit r/LocalLLaMA · 2026-06-12

PWA 支持已合并到 llama.cpp 中,使得 llama-server 网页 UI 可以像原生应用一样安装,具有独立窗口模式和合适的图标。

0 人收藏 0 人点赞
#llama-cpp

@juanjucm: 最近看到很多人发火……记住,你完全可以在本地运行你的编码代理 ;) llama.cpp + OpenCo…

X AI KOLs Following · 2026-06-12 缓存

一条推文提醒开发者,他们可以使用 llama.cpp 和 OpenCode 在本地运行编码代理,实现快速、可靠且私密的推理,并展示了使用 UnslothAI 的 North-Mini-Code-1.0-GGUF 模型的效果。

0 人收藏 0 人点赞
#llama-cpp

并非所有 MTP 辅助模型都生而平等

Reddit r/LocalLLaMA · 2026-06-12

关于 llama.cpp 中结合 Gemma 4 模型的 MTP 投机解码的详细技术探索,表明辅助模型的选择和量化对加速效果有显著影响,且并非所有“同名”的辅助模型表现相同。

0 人收藏 0 人点赞
#llama-cpp

EAGLE3 已登陆 llama.cpp

Reddit r/LocalLLaMA · 2026-06-12 缓存

EAGLE3 是一种推测性解码方法,现已集成到 llama.cpp 中,能够实现更快的推理。

0 人收藏 0 人点赞
#llama-cpp

PSA:测试你在 llama.cpp 中的“线程”参数(我的情况提升了 80% 的性能)

Reddit r/LocalLLaMA · 2026-06-12

一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试,发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能,并分享了最佳命令配置。

0 人收藏 0 人点赞
#llama-cpp

如何防止 llama.cpp 将数据卸载到交换空间?

Reddit r/LocalLLaMA · 2026-06-11

用户寻求关于如何防止 llama.cpp 在 RAM 完全耗尽前将 KV 缓存卸载到交换空间的建议,并分享了他们在配备 96GB RAM 的 M2 Max 和大型 Qwen 模型上的配置。

0 人收藏 0 人点赞
#llama-cpp

移除MTP中的填充和多重D2D拷贝 - 由gaugarg-nv提交 · 拉取请求#24086 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 2026-06-10 缓存

一个针对 llama.cpp 的拉取请求,移除了多令牌预测 (MTP) 中的填充和多重设备到设备拷贝,提高了 GPU 上的性能。

0 人收藏 0 人点赞
#llama-cpp

unsloth/diffusiongemma-26B-A4B-it-GGUF

Hugging Face Models Trending · 2026-06-10 缓存

Unsloth 发布了 Google DeepMind 的 DiffusionGemma (26B-A4B) 的 GGUF 量化版本,这是一种新的块扩散架构,可实现更快的文本生成,已准备好用于 llama.cpp。

0 人收藏 0 人点赞
#llama-cpp

@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行,拥有 248K Token 上下文窗口,每秒 20 个 Token,上下文窗口大得可以……

X AI KOLs Timeline · 2026-06-10 缓存

Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。

0 人收藏 0 人点赞
#llama-cpp

针对短时LLM运行的云GPU存储费用高昂。你的工作流程是怎样的?

Reddit r/AI_Agents · 2026-06-10

用户寻求针对短时LLM测试会话的成本效益云GPU工作流程建议,强调在运行之间保留环境时存储费用是主要痛点。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈