high-throughput

#high-throughput

构建低延迟和高吞吐量AI代理的经验教训

Reddit r/AI_Agents ↗ · 4天前

本文分享了构建低延迟、高吞吐量AI代理的实用经验，包括工作负载估算、令牌减少、并行处理、微服务以及处理LLM故障等。

0 人收藏 0 人点赞

#high-throughput

X AI KOLs Following ↗ · 2026-05-29 缓存

Kog 宣布在标准数据中心 GPU 上实现每请求每秒 3000+ 输出令牌的实时大语言模型推理，将此前仅限于定制芯片的高速推理引入生产硬件。

0 人收藏 0 人点赞

#high-throughput

X AI KOLs Timeline ↗ · 2026-05-26 缓存

Arc Institute的PerturbSpace利用标准单细胞测序，可在一天内从多个样本中实现转录组、位置、CRISPR向导、克隆关系及表面蛋白的高通量单细胞分析。

0 人收藏 0 人点赞

#high-throughput

Hugging Face Blog ↗ · 2026-03-17 缓存

H 公司发布 Holotron-12B，一款采用混合 SSM 架构、针对高吞吐量推理优化的多模态计算机使用智能体。该模型基于 NVIDIA Nemotron 进行后训练，在交互式智能体工作负载中展现出卓越的效率与可扩展性。

0 人收藏 0 人点赞

#high-throughput

Google DeepMind Blog ↗ · 2026-03-03 缓存

Google 推出 Gemini 3.1 Flash-Lite，这是一款高速、高性价比的 AI 模型，现可通过 Google AI Studio 和 Vertex API 预览使用，专为高并发开发者工作负载而设计。

0 人收藏 0 人点赞