@no_stp_on_snek: vllm-swift 0.6.3 和 longctx 0.3.2 已发布。亮点：triattentionv3 + longctx rescue path 在 Apple Silicon 上达到 256K NIAH…

X AI KOLs Following 2026/05/14 02:41 工具

apple-silicon swift metal inference vllm long-context tool-calling

摘要

vllm-swift 0.6.3 和 longctx 0.3.2 版本带来了 triattentionv3，在 Apple Silicon 上支持 256K 上下文；Gemma 4 MTP drafter 支持；带有自动恢复的 Hermes tool calling；以及用于扩展到 12M token 语料的 longctx-svc 守护进程。

vllm-swift 0.6.3 和 longctx 0.3.2 已发布。亮点： - triattentionv3 + longctx rescue path 在 Apple Silicon 上达到 256K NIAH（是的，triattention 现在略为可行） - gemma 4 MTP drafter，Swift 原生，4-bit k=2 时 1.5 倍加速 - Hermes tool calling + 泄露 JSON tool_calls 的自动恢复 - enginecore pgroup kill（修复了关闭时的“内存泄漏”问题） - longctx-svc 守护进程：每次轮次拉取相关代码，测试显示可扩展到 12M token 语料，通过 MCP 暴露工具 longctx 仍处于实验阶段，但我已在代理工作流中使用它。还有更多内容！发布说明：http://github.com/TheTom/vllm-swift/blob/main/CHANGELOG.md… http://github.com/TheTom/longctx/blob/main/CHANGELOG.md… 仓库 https://github.com/TheTom/vllm-swift… https://github.com/TheTom/longctx

查看原文

查看缓存全文

缓存时间: 2026/05/14 04:29

为 Apple Silicon 上的 vLLM 提供原生 Swift/Metal 后端。推理热路径中不含 Python。

在 Apple Silicon 上通过原生 Swift/Metal 热路径运行 vLLM 工作负载。兼容 OpenAI 的 API。短上下文解码速度提升高达 2.6 倍。

@no_stp_on_snek: vllm-swift 0.6.3 和 longctx 0.3.2 已发布。亮点：triattentionv3 + longctx rescue path 在 Apple Silicon 上达到 256K NIAH…

相似文章

@no_stp_on_snek: 首批体验：triattention v3 在长上下文中安全驱逐，✓命中每个层级 32k → 256k 在 qwen3.5-2b-4bit (混合 mamba…

@jundotkim: oMLX 0.3.9.dev2 已发布。亮点包括：- 视觉路径上的 Gemma 4 MTP（感谢 @Prince_Canuma 的 mlx-vlm）。图像+文本的解码速度显著提升 -...

@vllm_project: vLLM v0.21.0 发布！367 次提交，来自 202 位贡献者（其中 49 位新贡献者）。亮点：KV 卸载 + HMA、带思考预算的推测解码（适用于推理模型）……

@no_stp_on_snek: 与此同时，我们其他人都在埋头苦干。我现在正试图为mlx-swift-lm解决稀疏注意力问题。进展不错……

@Prince_Canuma: mlx-audio v0.4.3 正式发布！模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型：Higgs Audio v2（声音克隆）…

提交意见反馈