hubert.cpp,一个 distilHuBERT 的 C++ 实现 [P]
摘要
一个没有运行时依赖的 distilHuBERT C++ 实现,权重编译入库,支持动态大小,性能与 ONNX Runtime 相当,便于集成到 CMake 项目中。
我编写了一个 distilHuBERT 的 C++ 实现。[https://github.com/pfeatherstone/hubert.cpp](https://github.com/pfeatherstone/hubert.cpp) 它没有任何运行时依赖,权重直接编译到库中,支持动态尺寸,在我的测试中性能与 onnxruntime 不相上下,并且可以轻松集成到任何 CMake 项目中。欢迎提出建议。
相似文章
Show HN: Tiny-vLLM – 使用C++和CUDA的高性能LLM推理引擎
Tiny-vLLM是一个高性能的LLM推理引擎,采用C++和CUDA实现,提供连续批处理和PagedAttention等特性,并作为教育资源。
将 hf CLI 设计为适合 Hub 使用的 Agent 优化工具
Hugging Face 重新设计了其 `hf` CLI,使其同时面向人类用户和 Claude Code、Codex 等 AI 编程 Agent 进行优化,具备 Agent 感知的输出渲染能力,基准测试显示在复杂任务上相比不使用 CLI 的方案最高可节省 6 倍的 token 消耗。
基准测试:仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]
一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示,ONNX Runtime的推理速度比HF Transformers bfloat16快37%,而GGUF则优先考虑内存效率。
@no_stp_on_snek: 如果你想试试,可以在这里找到:
这是一个 llama.cpp 的分支,集成了 TurboQuant+,用于先进的 KV 缓存和权重量化,支持跨后端内核(Apple Silicon、NVIDIA CUDA、AMD ROCm、Vulkan),并被 LocalAI、Chronara 和 AtomicChat 用于生产环境。
huihui-ai/Huihui-GLM-5.2-abliterated-GGUF
Hugging Face 上发布了已消除限制的 GLM-5.2 模型的量化 GGUF 版本,可使用 Transformers、llama.cpp 和 vLLM 等工具进行本地推理。