@agupta:我很喜欢在这场速度竞赛中,有一家种子阶段的YC公司@wafer_ai在争夺榜首位置
摘要
一家种子阶段的YC初创公司Wafer AI正在推理速度竞赛中竞争,Databricks在GLM-5.2上实现了392 token/s,在Artificial Analysis中排名第一。
我很喜欢在这场速度竞赛中,有一家种子阶段的YC公司@wafer_ai在争夺榜首位置。
查看缓存全文
缓存时间: 2026/06/25 21:28
我喜欢在这场速度竞赛中,有一家YC种子阶段的公司@wafer_ai正在争夺榜首位置
Yuchen Jin (@Yuchenj_UW): 你可能听说过GLM-5.2达到328 token/s已经很酷了,
那392呢?
Databricks目前在Artificial Analysis上以GLM-5.2的推理速度排名第一。这是个很棒的模型,我们也做了很多优化。
相似文章
@mogulinfluence: 想知道 YC 和 Sequoia 目前在 AI 领域真正押注的是什么,请阅读此文:
本文介绍了一份资源,详细说明了 Y Combinator 和 Sequoia Capital 目前在 AI 行业的投资重点。
@gabriel1:推理将成为全球最大的市场,智能的需求无限,Etched 正在带来 AI 夏天
AI 推理硬件初创公司 Etched 在获得 8 亿美元融资并签署超过 10 亿美元客户合同后结束隐身模式。首批机架将于今年夏季发货,声称在吞吐量、延迟和能效方面达到业界领先水平。
@mattshumer_: Nvidia即将面临激烈的竞争。
Etched 从隐身模式中推出 AI 推理硬件,声称拥有顶尖的吞吐量和效率,对 Nvidia 构成了严峻的竞争。
@philipkiely: https://x.com/philipkiely/status/2069212319746506968
Baseten 宣布推出针对 GLM-5.2 开源模型的世界最快 API,通过 NVFP4 量化、分离式推理等优化,实现每秒超过 280 个 token 的处理速度。
@MiaAI_lab: Nvidia又做到了!@NVIDIAAI的Qwen 3.6 27B NVFP4比Unsloth的Qwen 3.6 27B NVFP4在D…上快了约41%
Nvidia优化后的Qwen 3.6 27B NVFP4模型在DGX Spark上相比Unsloth版本,单次推理速度快41%,并发推理速度快23-25%。