新 SOTA：Poetiq 使用自优化框架以 Gemini 3 Flash 超越 Opus 4.7 等模型

Reddit r/singularity 2026/05/15 00:43 模型

self-optimizing recursive-self-improvement sota coding gemini-3-flash poetiq

摘要

Poetiq 宣称使用配备 Gemini 3 Flash 的自优化框架实现了新的最先进编码性能，超越了 Opus 4.7。

查看他们的博客文章：[Poetiq | 递归自我改进带来新的 SOTA 编码性能](https://poetiq.ai/posts/recursive_self_improvement_coding/)

查看原文

相似文章

X AI KOLs Following

Poetiq的Meta-System通过使用标准API和Gemini 3.1 Pro自主构建编码框架，在LiveCodeBench Pro上取得了最先进的结果，无需微调或特殊模型访问。

TLDR AI

谷歌发布了 Gemini 3.5 Flash，这是一款混合速度模型，在速度和成本上与 Opus 4.7 和 GPT-5.5 相抗衡，同时在智能体和编程基准测试中表现良好。

Reddit r/singularity

Poetiq的Meta-System通过标准API访问进行递归自我改进，无需微调，在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果，超越了GPT 5.5等领先模型。

Reddit r/LocalLLaMA

一位用户报告称，Gemma4_31b 在 FP8 精度下，于自定义评测框架中与 Sonnet_4.6_medium 相当或持平，涉及任务包括 Cypher 查询生成、实体抽取、智能体工具调用、代码编写以及多向量检索合成。

X AI KOLs Timeline

Nick Kang 给他的推特基准测试集合新增了一个任务；Claude Opus 4.8 和其他 SOTA 模型通过了，而 Sonnet 4.6 和 Grok 4.3 失败了。Alfin 评论了 Opus 4.8 的危险能力。