650多个Apache-2.0许可的生物医学NER/去标识化模型,在MLX中设备端运行。相同fp32权重,输出一致:临床NER模型在3年前的M3 Max上比PyTorch-CPU快30-40倍。内部可复现。
摘要
650多个Apache-2.0许可的生物医学NER和去标识化模型集合,通过MLX在设备端运行,在M3 Max上实现比PyTorch-CPU快30-40倍的推理速度,且输出一致。
暂无内容
相似文章
新本地模型在PII移除上达到接近前沿性能,仅需9毫秒CPU推理
介绍了ScreenLeak基准,用于衡量计算机使用AI数据中的PII编辑,并提出了两个本地模型(用于文本的v45_phase3和用于图像的rfdetr_v8),在低延迟下实现了接近前沿的性能。
我对Parakeet 0.6B进行了医学ASR微调——开放权重,本地运行于Mac/CUDA/CPU
Omi Health创始人微调了NVIDIA的Parakeet TDT 0.6B用于医学ASR,发布了开放权重的模型Omi Med STT v1,在本地Mac、CUDA或CPU上运行时实现了有竞争力的医学WER。
@Modular: .@hippocraticai 运行超 400B 参数的模型,用于实时患者对话,每天处理数万次。当他们开始进行基准测试时…
Hippocratic AI 与 Modular 合作,使用 MAX 框架对大型语言模型进行推理,实现了低于 500 毫秒的平均 TTFT,P99 延迟提升约 30%,大规模下的平均延迟提升约 22%(在 NVIDIA B300 GPU 上),并且可移植到 AMD。
@AlexJonesax: 如果你在 Mac 上运行 LLM,值得了解的两个开源 MLX 推理服务器:MTPLX (@youssofal) 利用模型自身的…
本文介绍了两个适用于 Mac 的开源 MLX 推理服务器:MTPLX 通过投机解码(无需草稿模型)优化 token 生成速度,而 oMLX 则通过持久化的 KV 缓存提升代码智能体的工作流效率。
@neural_avb:我正在将SAM模型及其工具套件移植到Apple silicon上。已经在mlx上看到1.25倍推理速度提升……
将SAM 2.1模型移植到Apple silicon上(使用MLX),在小模型上实现了1.25倍推理速度提升,计划推出量化版。