kog-ai

#kog-ai

标准GPU上的实时LLM推理：每请求3k tokens/秒

Hacker News Top ↗ · 2026-05-29 缓存

Kog AI 发布了 Kog Inference Engine 的技术预览版，通过协同设计模型架构、运行时和底层 GPU 代码，在标准数据中心 GPU 上实现了每请求 3,000 tokens/s 的性能，面向延迟敏感的 AI 代理工作流。

0 人收藏 0 人点赞