coding-models

#coding-models

DeepReinforce 发布 Ornith-1.0 开源编程模型（2分钟阅读）

TLDR AI ↗ · 昨天缓存

DeepReinforce 开源了 Ornith-1.0，这是一系列自我改进的编程模型，参数从 9B 到 397B 不等，基于 Gemma 4 和 Qwen 3.5 基础模型训练，采用了一种新颖的强化学习方法，能够学习生成自己的脚手架。

0 人收藏 0 人点赞

#coding-models

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

Reddit r/LocalLLaMA ↗ · 2026-04-23

个人基准显示：Gemma-4E4B 在路由任务上称王，Qwen-3.6 27/30B 编码力压 Gemma-4，而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。

0 人收藏 0 人点赞

#coding-models

面对Anthropic压力，Google加码推进智能体AI

Reddit r/singularity ↗ · 2026-04-20

来源：[Google Creates Strike Team to Improve Coding Models — The Information](https://www.theinformation.com/articles/google-creates-strike-team-improve-coding-models)

0 人收藏 0 人点赞

#coding-models

为何我们不再评估SWE-bench Verified

OpenAI Blog ↗ · 2026-02-23 缓存

OpenAI宣布将不再报告SWE-bench Verified分数，理由是两个关键问题：59.4%的失败问题存在有缺陷的测试用例，这些用例拒绝了正确的解决方案；此外，前沿模型在训练过程中已经见过基准测试问题，使得改进更多地反映了训练数据的暴露而非真实能力提升。

0 人收藏 0 人点赞

coding-models

DeepReinforce 发布 Ornith-1.0 开源编程模型（2分钟阅读）

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

面对Anthropic压力，Google加码推进智能体AI

为何我们不再评估SWE-bench Verified

提交意见反馈