新 SOTA:Poetiq 使用自优化框架以 Gemini 3 Flash 超越 Opus 4.7 等模型
摘要
Poetiq 宣称使用配备 Gemini 3 Flash 的自优化框架实现了新的最先进编码性能,超越了 Opus 4.7。
查看他们的博客文章:[Poetiq | 递归自我改进带来新的 SOTA 编码性能](https://poetiq.ai/posts/recursive_self_improvement_coding/)
相似文章
@poetiq_ai: Poetiq的Meta-System从零构建了自己的编码框架。它在LiveCodeBench Pro上达到了SOTA。无需微调,无需特殊…
Poetiq的Meta-System通过使用标准API和Gemini 3.1 Pro自主构建编码框架,在LiveCodeBench Pro上取得了最先进的结果,无需微调或特殊模型访问。
Gemini 3.5 Flash 凭速度看很不错(8分钟阅读)
谷歌发布了 Gemini 3.5 Flash,这是一款混合速度模型,在速度和成本上与 Opus 4.7 和 GPT-5.5 相抗衡,同时在智能体和编程基准测试中表现良好。
Poetiq:递归自我改进实现新的SOTA编码性能
Poetiq的Meta-System通过标准API访问进行递归自我改进,无需微调,在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果,超越了GPT 5.5等领先模型。
Gemma4_31b_fp8 在我自己的评测框架中与 Sonnet_4.6_medium 持平。
一位用户报告称,Gemma4_31b 在 FP8 精度下,于自定义评测框架中与 Sonnet_4.6_medium 相当或持平,涉及任务包括 Cypher 查询生成、实体抽取、智能体工具调用、代码编写以及多向量检索合成。
@nick_kango: 再加一个任务到我的推特基准测试集合里:) 对了,Opus 4.8 和所有 SOTA 模型都通过了,但我试的时候 Sonnet 4.6 和 Grok 4.3 没有通过…
Nick Kang 给他的推特基准测试集合新增了一个任务;Claude Opus 4.8 和其他 SOTA 模型通过了,而 Sonnet 4.6 和 Grok 4.3 失败了。Alfin 评论了 Opus 4.8 的危险能力。