我制作了一个UI和服务器,用于在本地使用llama.cpp运行Anthropic的新自然语言自编码器
摘要
作者构建了一个自定义的llama.cpp服务器和Mikupad UI,以便在本地运行Anthropic的开源自然语言自编码器并实现激活引导。目前正在开发LoRA版本以降低内存需求。
Anthropic的首批开源权重模型——[自然语言自编码器](https://www.anthropic.com/research/natural-language-autoencoders) 仅是对流行开源权重模型的微调。它们没有修改架构和建模代码,因此使用llama.cpp进行推理基本是简单的。我将NLA的所有功能(即激活提取、激活解释、激活重建和基于解释编辑的引导)打包到了一个[自定义的llama.cpp服务器](https://github.com/thomasgauthier/nla.cpp)中。它还附带一个Mikupad UI,用于词元级别的激活解释和引导。我目前正在开发一个LoRA版本,这样我们只需将单个模型加载到内存中,而无需同时加载所有三个模型(基础模型、行为者模型和评判模型),敬请期待!
相似文章
使用 llama.cpp 在本地运行的自动化 AI 研究员
ml-intern 是一个面向 AI 代理的工具,它与 Hugging Face 的库集成,现在支持通过 llama.cpp 或 ollama 运行本地模型,使得自动化 AI 研究员可以在笔记本电脑上全天候运行。
@ggerganov:llama.cpp 现在有了官方网站:https://llama.app 我们的目标是让本地 AI 人人可用,并改善…
llama.cpp,广受欢迎的本地 AI 推理工具,现在有了官方网站(llama.app),提供跨平台安装程序和更好的用户体验,让本地 AI 更易于使用。
Built a Tauri v2 desktop chat shell for local LLMs — point it at Ollama / llama.cpp / any OpenAI-compatible endpoint, MIT, ~12 MB binary
Built a Tauri v2 desktop chat shell for local LLMs that can connect to Ollama, llama.cpp, or any OpenAI-compatible endpoint. The project is MIT licensed and produces a ~12 MB binary.
在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码
使用 llama.cpp 在单块 16GB GPU 及 64GB+ 内存上设置本地 LLM 自动完成(Qwen2.5-Coder-7B)与代理编码(Qwen3.6-35B-A3B)的技术指南,包含命令与性能基准。
ggml-org/llama.cpp
llama.cpp 是一个开源 C/C++ 库,用于在本地硬件上高效运行 LLM 推理,支持多种量化方法和多后端(CPU、GPU 等)。