@mylifcc: LiteLLM 正式迁移到 Rust 了! AI Gateway 迎来史诗级性能升级: 单请求开销降低 150 倍(~0.05ms vs Python 7.5ms) 吞吐量提升 15 倍 内存占用降低 11 倍(峰值仅 32MB) 单个 …
摘要
LiteLLM已从Python迁移到Rust,性能大幅提升:请求开销降低150倍至0.05ms,吞吐量提升15倍,内存占用降低11倍至32MB。
查看缓存全文
缓存时间: 2026/06/23 16:13
LiteLLM 正式迁移到 Rust 了!🦀
AI Gateway 迎来史诗级性能升级:
⚡ 单请求开销降低 150 倍(~0.05ms vs Python 7.5ms) 📈 吞吐量提升 15 倍 💾 内存占用降低 11 倍(峰值仅 32MB) 📦 单个 ~65MB 二进制文件,开销 <1ms 保持完全相同的 Python SDK、config.yaml、数据库和 100+ LLM
相似文章
@vllm_project: Rust 前端现已正式合并至 vLLM!随着 GPU 性能不断提升,前端已占据相当比例的 CPU 时间。…
vLLM 的 Rust 前端现已正式合并,可作为 Python API 服务器的直接替代方案,在预处理密集型工作负载上吞吐量提升高达 5 倍。
I put together a Rust-native, CPU-only implementation of LFM2.5-8B-A1B
作者发布了一个纯Rust、纯CPU的LFM2.5-8B-A1B模型推理实现(4-bit Q4KM量化),解码速度约37 tokens/s,内存占用~7GB,旨在让LLM在廉价VPS或旧机器上可运行。该实现已开源并发布为cargo crate。
@QingQ77: 用纯 Rust 实现 LLM 推理引擎,针对每种硬件×模型×量化组合定制 CUDA 内核,跑出比 vLLM 和 TensorRT-LLM 更高的推理速度。 https://github.com/Avarok-Cybersecurity/a…
Atlas 是一个纯 Rust 实现的 LLM 推理引擎,通过为每种硬件×模型×量化组合定制 CUDA 内核,实现了比 vLLM 和 TensorRT-LLM 更快的推理速度。
@GoSailGlobal: https://x.com/GoSailGlobal/status/2059814494021316923
LlamaIndex 用 Rust 重写了文档解析器,将 457 页 PDF 的解析时间缩短至 0.7 秒,开源免费且支持多种运行环境。
@Honcia13: Ollama要被干掉了! 这个叫 Shimmy 的5MB小东西真的有点猛! Rust写的本地AI推理神器,直接把Ollama按在地上摩擦: -单文件仅 5MB(Ollama直接哑火) -启动速度 <100ms -内存只吃 50MB -完美…
Shimmy 是一个用 Rust 编写的仅有 5MB 单文件的本地 AI 推理服务器,完美兼容 OpenAI API,启动速度小于 100ms,内存占用仅 50MB,可作为 Ollama 的轻量替代品。