Gemini 3.5 Flash 在短篇创意写作基准测试中相比 Gemini 3.1 Pro 有提升:-2.3 → -1.8。

Reddit r/singularity 模型

摘要

在短篇创意写作基准测试中,Gemini 3.5 Flash 表现优于 Gemini 3.1 Pro,在直接对比中从 -2.3 提升到 -1.8。

该基准测试采用故事之间的直接对比,这些故事是根据相同的限定创意简报撰写的。目标字数为600-800字。更多信息:[https://github.com/lechmazur/writing/](https://github.com/lechmazur/writing/)
查看原文

相似文章

Gemini 3.5 Flash 基准测试

Reddit r/singularity

讨论了Gemini 3.5 Flash模型的基准测试结果,可能展示了它在各种AI任务上的表现。

Gemini 3.5 Flash (Low)(1分钟阅读)

TLDR AI

Google 推出了 Gemini 3.5 Flash (Low),这是一种新模型变体,在 SWE 任务上比旧版 Gemini 3 Flash (High) 表现更优,同时相比 Medium 版本使用的 token 减少了约 45%。他们还重置了所有付费计划的配额。