kog-ai

标签

Cards List
#kog-ai

标准GPU上的实时LLM推理:每请求3k tokens/秒

Hacker News Top · 2026-05-29 缓存

Kog AI 发布了 Kog Inference Engine 的技术预览版,通过协同设计模型架构、运行时和底层 GPU 代码,在标准数据中心 GPU 上实现了每请求 3,000 tokens/s 的性能,面向延迟敏感的 AI 代理工作流。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈