标签
不同硬件上推理引擎性能对比:在2x RTX 3090s上从基线迁移到TP=2的vLLM,性能从~14.5 tok/s提升至~64 tok/s;在RTX PRO 6000上迁移到Sglang,性能从~32 tok/s提升至~110 tok/s。推荐在CUDA/多GPU场景使用vLLM/Sglang,在边缘设备使用llama.cpp。
对自主机器人背后软件栈的分析,拆解了从感知到云支持的各个组件,并指出大多数工具都是开源的。
文章介绍了一个包含 OpenClaw、Hermes 和 Paperclip 的开源 AI 智能体堆栈,将其描述为一种全面配置,其运行方式就像一个自动化的 AI 企业。