@no_stp_on_snek: vllm-swift 0.6.3 和 longctx 0.3.2 已发布。亮点:triattentionv3 + longctx rescue path 在 Apple Silicon 上达到 256K NIAH…

X AI KOLs Following 工具

摘要

vllm-swift 0.6.3 和 longctx 0.3.2 版本带来了 triattentionv3,在 Apple Silicon 上支持 256K 上下文;Gemma 4 MTP drafter 支持;带有自动恢复的 Hermes tool calling;以及用于扩展到 12M token 语料的 longctx-svc 守护进程。

vllm-swift 0.6.3 和 longctx 0.3.2 已发布。亮点: - triattentionv3 + longctx rescue path 在 Apple Silicon 上达到 256K NIAH(是的,triattention 现在略为可行) - gemma 4 MTP drafter,Swift 原生,4-bit k=2 时 1.5 倍加速 - Hermes tool calling + 泄露 JSON tool_calls 的自动恢复 - enginecore pgroup kill(修复了关闭时的“内存泄漏”问题) - longctx-svc 守护进程:每次轮次拉取相关代码,测试显示可扩展到 12M token 语料,通过 MCP 暴露工具 longctx 仍处于实验阶段,但我已在代理工作流中使用它。还有更多内容! 发布说明:http://github.com/TheTom/vllm-swift/blob/main/CHANGELOG.md… http://github.com/TheTom/longctx/blob/main/CHANGELOG.md… 仓库 https://github.com/TheTom/vllm-swift… https://github.com/TheTom/longctx
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:29

为 Apple Silicon 上的 vLLM 提供原生 Swift/Metal 后端。推理热路径中不含 Python。

在 Apple Silicon 上通过原生 Swift/Metal 热路径运行 vLLM 工作负载。兼容 OpenAI 的 API。短上下文解码速度提升高达 2.6 倍。

相似文章