标签
DeepReinforce 开源了 Ornith-1.0,这是一系列自我改进的编程模型,参数从 9B 到 397B 不等,基于 Gemma 4 和 Qwen 3.5 基础模型训练,采用了一种新颖的强化学习方法,能够学习生成自己的脚手架。
个人基准显示:Gemma-4E4B 在路由任务上称王,Qwen-3.6 27/30B 编码力压 Gemma-4,而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。
来源:[Google Creates Strike Team to Improve Coding Models — The Information](https://www.theinformation.com/articles/google-creates-strike-team-improve-coding-models)
OpenAI宣布将不再报告SWE-bench Verified分数,理由是两个关键问题:59.4%的失败问题存在有缺陷的测试用例,这些用例拒绝了正确的解决方案;此外,前沿模型在训练过程中已经见过基准测试问题,使得改进更多地反映了训练数据的暴露而非真实能力提升。