@poetiq_ai: Poetiq的Meta-System从零构建了自己的编码框架。它在LiveCodeBench Pro上达到了SOTA。无需微调,无需特殊…
摘要
Poetiq的Meta-System通过使用标准API和Gemini 3.1 Pro自主构建编码框架,在LiveCodeBench Pro上取得了最先进的结果,无需微调或特殊模型访问。
查看缓存全文
缓存时间: 2026/05/14 18:42
Poetiq 的 Meta-System 从头构建了自己的编码框架。在 LiveCodeBench Pro 上取得了最先进(SOTA)的成绩。
没有微调,没有特殊模型访问权限,仅使用标准 API。借助 Gemini 3.1 Pro,它构建的框架击败了我们测试的所有前沿模型。https://t.co/v575oUYJeH
相似文章
Poetiq:递归自我改进实现新的SOTA编码性能
Poetiq的Meta-System通过标准API访问进行递归自我改进,无需微调,在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果,超越了GPT 5.5等领先模型。
新 SOTA:Poetiq 使用自优化框架以 Gemini 3 Flash 超越 Opus 4.7 等模型
Poetiq 宣称使用配备 Gemini 3 Flash 的自优化框架实现了新的最先进编码性能,超越了 Opus 4.7。
最喜欢的代理式编码工具
作者比较了几种代理式编码工具(Codex CLI、Claude Code、Gemini CLI、OpenCode、Pi),认为Pi最精简且最适合本地模型,赞赏其简洁性以及与Qwen 27B-MXFP8的兼容性。
在github-copilot、pi、claude-code和opencode中使用Qwen3.6 27B完成相同任务
作者使用相同的 Qwen3.6 27B 模型测试了多个编码代理框架(GitHub Copilot、Pi、Claude Code、OpenCode),发现框架设计对性能影响显著,其中 OpenCode 在网络搜索和 Web 开发方面表现出色,而 GitHub Copilot 在文件编辑工具方面表现不佳。
META超级智能实验室发布:ProgramBench:最先进的AI能否在没有互联网的情况下从零复现真实可执行程序(ffmpeg、SQLite、ripgrep)?
Meta的超级智能实验室推出ProgramBench,这是一个评估最先进AI模型能否在没有互联网接入的情况下从零复现诸如ffmpeg和SQLite等真实可执行程序的基准测试。