标签
新增在聊天中渲染Mermaid图表的功能,并在llama.cpp网页界面中提供交互预览。
为 llama.cpp 添加 StepFun 3.5 MTP 模型支持的拉取请求。
llama.cpp 是一个开源的 LLM 推理引擎,使用 C/C++ 编写,依赖极少,支持多种硬件和量化方法。此拉取请求限制了 llama_context 的最大输出数。
Peter Steinberger利用Codex构建了全自动QA机器人,每次代码提交后自动生成测试、运行测试,并能在发现bug时自动修复并提交PR,大幅提升开发效率。
此拉取请求针对llama.cpp推理引擎,实现了使用f16掩膜的Flash Attention以减少VRAM使用。
此Pull Request为llama.cpp添加了MiniCPM5分词器支持,扩展了该工具对MiniCPM模型系列的兼容性。
一个针对 llama.cpp 的被拒绝的 PR 可在 AMD Strix Halo 硬件上为 MOE 模型提供高达 30% 的提示处理速度提升,但增益会随上下文长度增加而递减。
此拉取请求为 llama.cpp(一个流行的开源 LLM 推理引擎)添加了 CUDA 上的快速 Walsh-Hadamard 变换实现。该优化提升了在 NVIDIA GPU 上某些计算操作的性能。
一个针对 llama.cpp 的拉取请求修复了使用 OpenCode 或 Pi 时出现的持续 prompt processing 问题。
此拉取请求通过避免在多令牌预测的提示解码过程中不必要地复制 logits,优化了 llama.cpp,从而提升推理性能。
拉取请求为 llama.cpp 添加多令牌预测(MTP)支持,启用推测解码以加速推理。
一个基于LangChain构建的AI代理持续监控自己的代码库,标记缺失的监测器,并自动创建PR修复发现的漏洞,如Ramp公司的Alex Shevchenko所述。