标签
本文分享了构建低延迟、高吞吐量AI代理的实用经验,包括工作负载估算、令牌减少、并行处理、微服务以及处理LLM故障等。
Kog 宣布在标准数据中心 GPU 上实现每请求每秒 3000+ 输出令牌的实时大语言模型推理,将此前仅限于定制芯片的高速推理引入生产硬件。
Arc Institute的PerturbSpace利用标准单细胞测序,可在一天内从多个样本中实现转录组、位置、CRISPR向导、克隆关系及表面蛋白的高通量单细胞分析。
H 公司发布 Holotron-12B,一款采用混合 SSM 架构、针对高吞吐量推理优化的多模态计算机使用智能体。该模型基于 NVIDIA Nemotron 进行后训练,在交互式智能体工作负载中展现出卓越的效率与可扩展性。
Google 推出 Gemini 3.1 Flash-Lite,这是一款高速、高性价比的 AI 模型,现可通过 Google AI Studio 和 Vertex API 预览使用,专为高并发开发者工作负载而设计。