coding-models

标签

Cards List
#coding-models

DeepReinforce 发布 Ornith-1.0 开源编程模型(2分钟阅读)

TLDR AI · 昨天 缓存

DeepReinforce 开源了 Ornith-1.0,这是一系列自我改进的编程模型,参数从 9B 到 397B 不等,基于 Gemma 4 和 Qwen 3.5 基础模型训练,采用了一种新颖的强化学习方法,能够学习生成自己的脚手架。

0 人收藏 0 人点赞
#coding-models

Gemma 4 击败 Qwen 3.5(更新),Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

Reddit r/LocalLLaMA · 2026-04-23

个人基准显示:Gemma-4E4B 在路由任务上称王,Qwen-3.6 27/30B 编码力压 Gemma-4,而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。

0 人收藏 0 人点赞
#coding-models

面对Anthropic压力,Google加码推进智能体AI

Reddit r/singularity · 2026-04-20

来源:[Google Creates Strike Team to Improve Coding Models — The Information](https://www.theinformation.com/articles/google-creates-strike-team-improve-coding-models)

0 人收藏 0 人点赞
#coding-models

为何我们不再评估SWE-bench Verified

OpenAI Blog · 2026-02-23 缓存

OpenAI宣布将不再报告SWE-bench Verified分数,理由是两个关键问题:59.4%的失败问题存在有缺陷的测试用例,这些用例拒绝了正确的解决方案;此外,前沿模型在训练过程中已经见过基准测试问题,使得改进更多地反映了训练数据的暴露而非真实能力提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈