标签
在单个H100(FP8)上对本地开源权重LLM进行的基准测试比较显示,DiffusionGemma速度提升4倍,但错误数量比Gemma4 26B A4B多6倍,突显了扩散模型与自回归模型在速度和准确性之间的权衡。
一项比较表明,Google 的 Gemini 3.1 Pro 在实际使用中的表现远不如 Opus 4.7,文章强调 Artificial Analysis 是进行基准测试的首选资源。
比较显示,Gemini 3.5 Flash在Artificial Analysis基准测试中得分略低于Gemini 3.1 Pro,且尽管每token API定价更低,但其总基准测试成本却更高。
详细的CPU基准测试,对比Kokoro 82M和Supertonic 3 TTS模型,测量不同文本长度下的RTF、延迟和吞吐量。结果显示Supertonic 3速度更快,但Kokoro生成的语音更自然,并针对不同使用场景给出了实用建议。
用户报告称,其搭载Nvidia GB10(DGX)的Asus Ascent在运行Gemma4-31B等大语言模型时,速度比Ryzen AI Max还要慢(预期应有2-4倍加速),并分享了他们的llama-cpp配置以供调试。
用户分享在移动设备上运行Gemma 4与LiteRT-LM的亲身对比体验,相较于之前的llama.cpp设置,内存占用显著降低(1.5-2 GB vs 4-5 GB),推理速度更快(2-4秒 vs 7-10秒),测试机型包括三星S25 Ultra和iPhone 13 Pro Max。
本 AI 编程竞赛对比了 Claude 与 Gemini 在解决加权骑士巡游变体问题上的表现。在该变体中,每次移动的成本取决于此前已访问方格累积的负载。