hubert.cpp，一个 distilHuBERT 的 C++ 实现 [P]

Reddit r/MachineLearning 2026/06/12 07:40 工具

cpp hubert speech-processing machine-learning open-source distilhubert inference

摘要

一个没有运行时依赖的 distilHuBERT C++ 实现，权重编译入库，支持动态大小，性能与 ONNX Runtime 相当，便于集成到 CMake 项目中。

我编写了一个 distilHuBERT 的 C++ 实现。[https://github.com/pfeatherstone/hubert.cpp](https://github.com/pfeatherstone/hubert.cpp) 它没有任何运行时依赖，权重直接编译到库中，支持动态尺寸，在我的测试中性能与 onnxruntime 不相上下，并且可以轻松集成到任何 CMake 项目中。欢迎提出建议。

查看原文

相似文章

Show HN: Tiny-vLLM – 使用C++和CUDA的高性能LLM推理引擎

Hacker News Top

Tiny-vLLM是一个高性能的LLM推理引擎，采用C++和CUDA实现，提供连续批处理和PagedAttention等特性，并作为教育资源。

将 hf CLI 设计为适合 Hub 使用的 Agent 优化工具

Hugging Face Blog

Hugging Face 重新设计了其 `hf` CLI，使其同时面向人类用户和 Claude Code、Codex 等 AI 编程 Agent 进行优化，具备 Agent 感知的输出渲染能力，基准测试显示在复杂任务上相比不使用 CLI 的方案最高可节省 6 倍的 token 消耗。

基准测试：仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]

Reddit r/MachineLearning

一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示，ONNX Runtime的推理速度比HF Transformers bfloat16快37%，而GGUF则优先考虑内存效率。

@no_stp_on_snek: 如果你想试试，可以在这里找到：

X AI KOLs Following

这是一个 llama.cpp 的分支，集成了 TurboQuant+，用于先进的 KV 缓存和权重量化，支持跨后端内核（Apple Silicon、NVIDIA CUDA、AMD ROCm、Vulkan），并被 LocalAI、Chronara 和 AtomicChat 用于生产环境。

huihui-ai/Huihui-GLM-5.2-abliterated-GGUF

Hugging Face Models Trending

Hugging Face 上发布了已消除限制的 GLM-5.2 模型的量化 GGUF 版本，可使用 Transformers、llama.cpp 和 vLLM 等工具进行本地推理。

提交意见反馈