650多个Apache-2.0许可的生物医学NER/去标识化模型，在MLX中设备端运行。相同fp32权重，输出一致：临床NER模型在3年前的M3 Max上比PyTorch-CPU快30-40倍。内部可复现。

Reddit r/LocalLLaMA 2026/06/23 18:09 模型

biomedical-ner de-identification apache-2.0 on-device mlx performance open-source

摘要

650多个Apache-2.0许可的生物医学NER和去标识化模型集合，通过MLX在设备端运行，在M3 Max上实现比PyTorch-CPU快30-40倍的推理速度，且输出一致。

暂无内容

查看原文

相似文章

Reddit r/LocalLLaMA

介绍了ScreenLeak基准，用于衡量计算机使用AI数据中的PII编辑，并提出了两个本地模型（用于文本的v45_phase3和用于图像的rfdetr_v8），在低延迟下实现了接近前沿的性能。

Reddit r/LocalLLaMA

Omi Health创始人微调了NVIDIA的Parakeet TDT 0.6B用于医学ASR，发布了开放权重的模型Omi Med STT v1，在本地Mac、CUDA或CPU上运行时实现了有竞争力的医学WER。

X AI KOLs Following

Hippocratic AI 与 Modular 合作，使用 MAX 框架对大型语言模型进行推理，实现了低于 500 毫秒的平均 TTFT，P99 延迟提升约 30%，大规模下的平均延迟提升约 22%（在 NVIDIA B300 GPU 上），并且可移植到 AMD。

X AI KOLs Timeline

本文介绍了两个适用于 Mac 的开源 MLX 推理服务器：MTPLX 通过投机解码（无需草稿模型）优化 token 生成速度，而 oMLX 则通过持久化的 KV 缓存提升代码智能体的工作流效率。

X AI KOLs Following

将SAM 2.1模型移植到Apple silicon上（使用MLX），在小模型上实现了1.25倍推理速度提升，计划推出量化版。