标签
截至2026年5月30日,OpenAI重大模型平均51.8天更新一次,Anthropic 59.8天,Google 75.8天,指出AI竞争不仅在于benchmark,还在于迭代速度。
LocalMaxxing 是一个提供本地 LLM 推理社区基准测试的网站,让用户能够追踪速度并比较硬件性能。
对Bitdefender VPN的评测,称赞其速度和实惠性,适合基本的隐私需求,但指出因美国管辖和与IPVanish合作,对隐私爱好者而言存在局限性。
据称 GPT-5.6 Sol 速度极快(750 t/s),成本效益高(仅为 Fable 成本的 25%),同时性能超越 Mythos,可能重置市场格局。
推文宣布了 Gemma 4 31B 多模态模型,速度快如火箭,称这是通往超级智能的第一步。
Inception Labs 发布了 Mercury 2,这是一个扩散语言模型,每秒可生成约1000个token,在 AIME 2026 基准测试中以 90% 对 69.1% 的得分优于 Google 的 DiffusionGemma,不过 DiffusionGemma 是免费且开源权重的,而 Mercury 2 是付费且闭源权重的 API 模型。
privacy-filter.cpp 在性能上比 PyTorch 实现快约 1.6 倍至 18 倍。
一个名为claude-code-local的新开源工具允许在MacBook上本地运行一个122B参数的模型,每秒处理65个token,并完整支持Claude Code,在原始速度上击败云端Opus。
一项基准测试显示,Diffusion Gemma 比 Gemma4 速度快4倍,但事实性错误多6倍,尤其是在冷门话题上,为了生成流畅文本而牺牲了事实准确性。
Steeve Morin 报告称,经过5天的工作,他的实现速度现已与llama.cpp相差不到10%,达到每秒64个token对70个token,还需继续优化。
一个Twitter讨论串,探讨了数据库文件系统抽象(PostgresFS)和基于技能的方法(使用本地 Bash)哪个更适合代理工作流。技能方法在组合性和速度上胜出。
根据早期结果,Mixedbread 的重排序器在 OBLIQ-bench 上达到了 GPT 5.5 级别性能,同时速度快 27 倍。
Jerry Liu宣布了LiteParse v2,一款基于Rust的PDF解析器,据称是目前最快、最准确的开源、无模型PDF解析器。
介绍LFM2.5 8b A1b,一款性能与Nemotron 3 Nano相当但速度更快的新AI模型。SmallCode正在增加对非标准工具调用的支持。
谷歌发布了 Gemini 3.5 Flash,这是一款混合速度模型,在速度和成本上与 Opus 4.7 和 GPT-5.5 相抗衡,同时在智能体和编程基准测试中表现良好。
推广 Atlas Inference,这是一个开源推理服务工具,在 Qwen3.6-35B-A3B 基准测试上实现了 200+ tok/s 的性能。