Poetiq:递归自我改进实现新的SOTA编码性能
摘要
Poetiq的Meta-System通过标准API访问进行递归自我改进,无需微调,在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果,超越了GPT 5.5等领先模型。
暂无内容
查看缓存全文
缓存时间: 2026/05/15 00:36
# 递归自我改进带来全新SOTA编程性能
来源:https://poetiq.ai/posts/recursive_self_improvement_coding/
我们在编程基准测试上运行了Poetiq的元系统(Meta-System),让它从零构建并优化自己的代码框架(harness),并在所有测试模型上——无论是开源权重还是专有模型——都带来了性能提升。全程无需微调、无需特殊权限、无需手动搭建管线。
## 在LiveCodeBench Pro上自动超越SOTA
LiveCodeBench Pro(LCB Pro)是一个权威的编程基准测试。要成功通过测试,解决方案不仅需要产生正确的答案,还必须满足特定的内存和运行时间限制。更重要的是,该基准测试明确旨在缓解LLM数据污染问题。其测试套件会持续更新,这使其有别于许多标准基准测试。它还通过不公开真实代码来进一步避免过拟合,而是采用一个全面的测试框架来验证生成的解决方案是否满足所需的输出。基准测试中的题目均来自主要编程竞赛。
LCB Pro通过使用困难的C++挑战题来强调*创造性编程*,这能有效测试AI解决复杂问题的能力。这使其与SWEBench等评估工具使用或错误修复工作流程的数据集截然不同。最终,该基准测试提供了对模型固有编程能力及其生成*高质量、高性能过程逻辑*能力的纯粹评估。
我们在LCB Pro上运行了Poetiq的元系统(Meta-System),让它为Gemini 3.1 Pro创建一个定制的LCB框架(harness)。随后,该框架在来自不同提供商、不同代际的许多其他模型上进行了测试,包括开源和专有模型。新的SOTA结果如图1所示。
图1:我们自动创建的框架在LiveCodeBench Pro(25Q2)上实现了新的SOTA,使用相同的基座模型,性能比GPT 5.5 High高出4.3%。此外,将Poetiq的框架应用于Google的Gemini 3.1 Pro,其性能提升了12.3%。此外,与我们之前在ARC-AGI上的成功类似,这种优化使得更小、更具成本效益的Gemini 3.1 Pro能够超越Google自己的旗舰系统Deep Think。
基于从先前基准测试(ARC-AGI、HLE)中获得的知识,我们的元系统优化了框架的每一个部分以提升其性能。我们仅使用Gemini 3.1 Pro模型来优化框架;元系统在设计框架时考虑了准确性、运行时间和内存限制。优化后的框架将Gemini 3.1 Pro的结果提升了12.3%(从78.6到90.9)¹,超越了GPT 5.5,后者是我们在此基准测试中测试的最佳模型。此外,当我们对GPT 5.5本身应用*相同*的框架而无需任何新的优化时,其准确率提升至**93.9%**——超越了其自身之前的最高结果,并将SOTA边界推得更高。
最后,尽管Google自身性能最强的模型Gemini Deep Think无法通过API访问进行验证,我们也超越了它的性能。需要注意的是,我们的表现是在**没有**对底层模型进行任何微调,也没有特殊访问任何模型内部激活的情况下实现的。我们的元系统通过递归自我改进,创建了一个智能框架,仅需标准API访问即可。
我们的SOTA结果是在没有任何微调且无需特殊访问模型激活的情况下实现的。Poetiq元系统通过递归自我改进,创建了一个智能框架,仅需标准API访问。
与后训练和微调不同(后者的每一次改进都绑定于特定模型),我们可以将我们习得的框架应用于任何LLM。
与后训练和微调不同,后者的每一次改进都绑定于特定模型,而我们可以将我们习得的框架应用于*任何*LLM。如上所述,我们的框架是为Gemini 3.1 Pro优化的,但应用于GPT 5.5时也显著提升了其性能。另一个有趣的例子是Gemini 3 Flash——该框架将其准确率提升了10个百分点,从72.3%提升至82.3%。这超越了Gemini 3.1 Pro、Anthropic的Claude Opus 4.7和OpenAI的GPT 5.2 High,这些模型都比Gemini 3 Flash更大、更昂贵。
## 按难度细分的性能提升
由于LCB Pro根据竞赛人类解题率将挑战题按难度分类——简单、中等、困难——它提供了对能力的细致观察。表1显示,我们优化后的框架在**所有类别**中始终优于基础模型系列。
| 模型 | 总体准确率 | 困难 | 中等 | 简单 |
| :--- | :--- | :--- | :--- | :--- |
| **Gemini** | | | | |
| Gemini 3.1 Pro | 78.6% | 7.7% | 64.9% | 94.8% |
| Gemini 3 Deep Think | 88.8% | 53.8% | 86.0% | 94.8% |
| **Poetiq框架 w/ Gemini 3.1 Pro** | **90.9%** | **58.3%** | **87.5%** | **96.9%** |
| **GPT** | | | | |
| GPT 5.5 High | 89.6% | 50.0% | 91.1% | 93.8% |
| **Poetiq框架 w/ GPT 5.5 High** | **93.9%** | **75.0%** | **92.9%** | **96.9%** |
表1:Poetiq框架与Gemini和GPT模型在LCB Pro(25Q2)上的对比。报告的准确率按基准测试的难度类别细分。Poetiq框架在**所有类别的所有模型**中表现更优。
为了进一步说明Poetiq元系统的优势,我们将我们的技术应用于最近流行的模型——包括闭源和开源权重模型。下面的“蛙跳”图表展示了两款模型(Gemini 3.0 Flash和Kimi K2.6)性能的巨大飞跃;所有模型改进的总结可在附录中找到。
**LCB Pro 蛙跳图表: Gemini 3.0 Flash**
82.3
Poetiq Gemini 3.0 Flash
**LCB Pro 蛙跳图表: Kimi K2.6**
图2:使用Poetiq的框架改进了所有测试模型。这里我们着重关注特定模型的改进。展示两个示例:(A) Gemini 3.0 Flash, (B) Kimi K2.6。注意Kimi K2.6提升了30%。所有模型的改进详见附录。
## 为什么在代码上进行测试?
这是Poetiq第三个公开报告的基准测试结果。此前,我们展示了如何在ARC-AGI和HLE上提升所有模型的性能。我们对尝试的基准测试是有策略选择的;我们认为对于LLM来说,有三个关键的任务类别:
1. *推理*挑战:要求LLM以创新方式综合提供的信息;ARC-AGI是这种能力的首要例证。
2. *检索*挑战:量化嵌入在模型权重中的知识广度。HLE对此进行严格审计,要求模型在极其广泛的学科中回忆精确事实。
3. *编程*挑战:作为当今AI最普遍的商业应用,这些任务将推理和检索与特定过程逻辑的生成相结合。在此取得SOTA成果展示了我们递归自我改进方法的经济潜力。
我们的编程工作主要集中在三个主要目标:
1. 证明通过在任何底层LLM周围构建一个智能框架,我们可以*在不进行微调或特殊模型访问的情况下*提升效能。✓
2. 验证我们的元系统在创建此框架方面进行递归自我改进的能力。我们自豪地宣布,我们的系统完全自动化地构建和优化这些特定任务的框架。✓
3. 证明一旦我们的框架构建完成,它将是*模型无关的*,可以不经修改地与任何模型一起使用。✓
SOTA结果是通过使用Poetiq元系统自动创建和优化的框架实现的。Poetiq的元系统使用递归自我改进自动地自我优化。
## 那么,下一步是什么?
在Poetiq,我们的核心元系统被设计用于自动化地从具有挑战性的任务中提取知识,生成高度优化的代理、框架和编排器。我们优化流程的每一个部分:制定更好的策略来决定提问什么,优化顺序提问链,并设计全新的方法来组合答案。我们的元系统持续将之前和当前任务及数据集的习得经验纳入考量,以自动创建新的、定制的*特定任务*框架。
自2025年11月公开以来,我们已公开演示了我们的方法在需要推理、知识检索和高级工具使用(例如HLE)以及现在的编程等基准测试上的表现。每一个基准测试都暴露了最大化LLM性能方面的独特障碍。那么接下来呢?我们也在与一小群精心挑选的早期客户合作——如果您很兴奋能成为第一批在您自己的问题上尝试Poetiq的人,请告知我们。
## 加入我们的旅程
Poetiq是一个精干、技术深厚的团队,拥有来自Google/DeepMind的合计72年经验。我们专注于通过递归自我改进解决在噪音和不确定性下AI推理和知识提取的根本问题。想加入我们?查看我们的开放职位。
## 附录
图3:所有模型在LCB Pro上的改进。注意Kimi提升了30%,Nemotron提升了12.8%!
¹ 只要可能,我们就直接报告来自LCB Pro排行榜在https://livecodebenchpro.com/projects/livecodebench-pro/leaderboard(25Q2)上的准确率数字。对于未在排行榜上展示的模型,我们进行了自己的评估。为了验证我们的实验设置,我们测试了几个基线模型,并成功复现了它们官方的排行榜准确率。
相似文章
@poetiq_ai: Poetiq的Meta-System从零构建了自己的编码框架。它在LiveCodeBench Pro上达到了SOTA。无需微调,无需特殊…
Poetiq的Meta-System通过使用标准API和Gemini 3.1 Pro自主构建编码框架,在LiveCodeBench Pro上取得了最先进的结果,无需微调或特殊模型访问。
新 SOTA:Poetiq 使用自优化框架以 Gemini 3 Flash 超越 Opus 4.7 等模型
Poetiq 宣称使用配备 Gemini 3 Flash 的自优化框架实现了新的最先进编码性能,超越了 Opus 4.7。
@rohanpaul_ai: 精彩新论文来自Meta、CMU及其他实验室。表明编码代理通过制造自己的...来更快地提升。
来自Meta、CMU及其他实验室的一篇新论文提出了Self-play SWE-RL,这是一种方法,编码代理通过在实际代码库中制造和修复错误来训练自己,在SWE-bench基准测试上取得了显著提升,且不依赖人类编写的任务。
当AI自我构建:我们在递归自我改进方面的进展
Anthropic研究院发布了一项关于递归自我改进进展的分析报告,显示AI已在加速AI开发——工程师每季度的代码产出提升了8倍——并预测具备完全自主自我改进能力的AI系统或将比大多数机构所预期的更早到来。
@yifan_zhang_:通过编程智能体实现递归式自我改进是所有前沿实验室的头号任务。
前沿AI实验室正把“借助编程智能体进行递归式自我改进”列为核心研究方向。