早期测试和泄露显示3.5 pro结果令人失望
摘要
早期测试和泄露信息表明,3.5 Pro模型的结果令人失望,未达到预期。
暂无内容
相似文章
@sailfishcc1: 问了几百个 5.4 Pro 的问题,我能明显的感受到它绝对是 5.5 thinking xhigh,绝对不是 5.5 Pro 模型,这也体现出 OpenAI 对于 5.5 模型的自信,它认为 5.5 thinking 要比 5.4 Pro…
User testing indicates the new 5.4 Pro model is actually a disguised 5.5-thinking-xhigh, suggesting OpenAI is quietly rolling out stronger reasoning capabilities to Pro subscribers.
Gemini 3.5 Flash在Artificial Analysis上的表现比其表面数据更糟
比较显示,Gemini 3.5 Flash在Artificial Analysis基准测试中得分略低于Gemini 3.1 Pro,且尽管每token API定价更低,但其总基准测试成本却更高。
Gemini 3.5 Flash 基准测试
讨论了Gemini 3.5 Flash模型的基准测试结果,可能展示了它在各种AI任务上的表现。
Gemini 3.5 Flash 在编码方面并不出色
文章讨论了来自 Cursor 的评估结果,表明 Gemini 3.5 Flash 在编码任务上的表现低于预期。
Gemini 3.5 Flash 在短篇创意写作基准测试中相比 Gemini 3.1 Pro 有提升:-2.3 → -1.8。
在短篇创意写作基准测试中,Gemini 3.5 Flash 表现优于 Gemini 3.1 Pro,在直接对比中从 -2.3 提升到 -1.8。