Gemini 3.5 Flash 在短篇创意写作基准测试中相比 Gemini 3.1 Pro 有提升:-2.3 → -1.8。
摘要
在短篇创意写作基准测试中,Gemini 3.5 Flash 表现优于 Gemini 3.1 Pro,在直接对比中从 -2.3 提升到 -1.8。
该基准测试采用故事之间的直接对比,这些故事是根据相同的限定创意简报撰写的。目标字数为600-800字。更多信息:[https://github.com/lechmazur/writing/](https://github.com/lechmazur/writing/)
相似文章
Gemini 3.5 Flash在Artificial Analysis上的表现比其表面数据更糟
比较显示,Gemini 3.5 Flash在Artificial Analysis基准测试中得分略低于Gemini 3.1 Pro,且尽管每token API定价更低,但其总基准测试成本却更高。
Gemini 3.5 Flash 在编码方面并不出色
文章讨论了来自 Cursor 的评估结果,表明 Gemini 3.5 Flash 在编码任务上的表现低于预期。
Gemini 3.5 Flash 基准测试
讨论了Gemini 3.5 Flash模型的基准测试结果,可能展示了它在各种AI任务上的表现。
Gemini 3.5 Flash 凭速度看很不错(8分钟阅读)
谷歌发布了 Gemini 3.5 Flash,这是一款混合速度模型,在速度和成本上与 Opus 4.7 和 GPT-5.5 相抗衡,同时在智能体和编程基准测试中表现良好。
Gemini 3.5 Flash (Low)(1分钟阅读)
Google 推出了 Gemini 3.5 Flash (Low),这是一种新模型变体,在 SWE 任务上比旧版 Gemini 3 Flash (High) 表现更优,同时相比 Medium 版本使用的 token 减少了约 45%。他们还重置了所有付费计划的配额。