@no_stp_on_snek: vllm-swift 0.6.3 和 longctx 0.3.2 已发布。亮点:triattentionv3 + longctx rescue path 在 Apple Silicon 上达到 256K NIAH…
摘要
vllm-swift 0.6.3 和 longctx 0.3.2 版本带来了 triattentionv3,在 Apple Silicon 上支持 256K 上下文;Gemma 4 MTP drafter 支持;带有自动恢复的 Hermes tool calling;以及用于扩展到 12M token 语料的 longctx-svc 守护进程。
查看缓存全文
缓存时间: 2026/05/14 04:29
为 Apple Silicon 上的 vLLM 提供原生 Swift/Metal 后端。推理热路径中不含 Python。
在 Apple Silicon 上通过原生 Swift/Metal 热路径运行 vLLM 工作负载。兼容 OpenAI 的 API。短上下文解码速度提升高达 2.6 倍。
相似文章
@no_stp_on_snek: 首批体验:triattention v3 在长上下文中安全驱逐,✓命中每个层级 32k → 256k 在 qwen3.5-2b-4bit (混合 mamba…
介绍了 triattention v3,一种新的注意力机制,能够在长上下文推理中实现安全驱逐且不丢失召回,并在混合 mamba+attention 模型上演示了高达 256k 令牌的效果。
@jundotkim: oMLX 0.3.9.dev2 已发布。亮点包括:- 视觉路径上的 Gemma 4 MTP(感谢 @Prince_Canuma 的 mlx-vlm)。图像+文本的解码速度显著提升 -...
oMLX 0.3.9.dev2 已发布,带来了对 Gemma 4 的改进支持、DFlash 引擎集成以及 ParoQuant 功能,优化了在 Apple Silicon 上的本地 LLM 推理体验。
@vllm_project: vLLM v0.21.0 发布!367 次提交,来自 202 位贡献者(其中 49 位新贡献者)。亮点:KV 卸载 + HMA、带思考预算的推测解码(适用于推理模型)……
vLLM v0.21.0 已发布,新增 KV 卸载 + HMA、面向推理模型的带思考预算的推测解码、适用于 DSR1/Kimi K2.5 的 Blackwell 上的 TOKENSPEED_MLA、Mooncake 分布式 KV、DeepSeek V4 流水线并行,以及 C++20 + Transformers v5 基线。
@no_stp_on_snek: 与此同时,我们其他人都在埋头苦干。我现在正试图为mlx-swift-lm解决稀疏注意力问题。进展不错……
开发者报告在mlx-swift-lm中实现稀疏注意力的进展,在M5 Max上仅比密集注意力多4%的开销。
@Prince_Canuma: mlx-audio v0.4.3 正式发布!模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型:Higgs Audio v2(声音克隆)…
mlx-audio v0.4.3 发布,新增 6 个 TTS 模型,包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice,同时带来并发请求与持续批处理等服务器改进,Voxtral Realtime 4-bit 模式速度提升约 3 倍,并精简了 Apple Silicon 上的依赖项。