标签
一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术,比典型ML课程提供更多现实世界的洞察。
作者讨论了包括 RTX Blackwell 和 Apple Silicon 在内的高端 AI 硬件成本不断上升的问题,主张保持耐心,期待未来高速 DDR5 内存和多通道系统的技术突破,这将显著提升 Token 生成性能。
Modal 宣布,通过优化 GPU 健康管理和 CUDA 上下文检查点机制,vLLM 和 SGLang 服务器副本的启动速度提升了 3-10 倍。
一次技术讨论验证了在配备 FP8 Tensor Core 的 NVIDIA H100 GPU 上 TurboQuant 的性能数据,并承诺将带来非 H100 测试的更多见解。
用户 @binsquares 报告称,smolvm 上的 GPU 加速通过 Vulkan 后端运行 llama.cpp 时,可获得接近 90% 的主机性能。
社区报告称,通过oMLX优化,Qwen3.6-27b模型在M5Max硬件上实现了极高的推理性能。
有人推测,如果 Claude 5.5 速度提升 20 倍,用户将能够实时对话并编写代码,界面会随着语音输入同步更新。
Skymizer发布HTX301,一款能够本地运行700B参数大语言模型、拥有高内存和低功耗的PCIE推理卡。
文章指出AI推理对云数据基础设施提出了独特挑战,其需求更接近高并发OLTP系统,而非传统面向人类速度的应用。文章强调需要优化存储和数据访问层,以应对自主智能体驱动的"AI数据海啸"。
NVIDIA 认为,每 Token 成本是衡量 AI 总体拥有成本(TCO)的最关键指标,优于 FLOPS/美元等传统衡量标准,能更准确地反映现实世界中的推理效率和盈利能力。
Google 为 Gemini API 推出了 Flex 和 Priority 推理层,为开发者提供了对同步请求成本与可靠性的精细控制。Flex 可为对延迟不敏感的任务节省 50% 的成本,而 Priority 则可确保关键应用的高可靠性。
Google 宣布 Gemini 2.5 Pro 和 Flash 模型的稳定正式发布,推出新的 Gemini 2.5 Flash-Lite 预览版,具有更低的延迟和成本,并更新 Flash 系列的定价,调整输入/输出令牌费率。