标签
Ornith-1.0-9B是一款新的90亿参数AI模型,针对8-12GB GPU进行了优化,在智能体编码基准测试中表现出色,性能与大小为其2-3倍的模型相当甚至超越。
Devin Desktop 现已支持 Kimi K2.7 和 GLM 5.2 模型,为 Pro/Max/Teams 用户提供免费试用,截止至7月5日。
GLM 5.2 是 Z.ai 推出的全新开放权重模型,与 Claude Opus 在 3D 游戏编码任务中进行了对比。Opus 性能更快更清晰,但 GLM 5.2 在成本和易用性上具有显著优势。
Step 3.7 Flash 是一个开放权重的模型,拥有 256k 上下文窗口,可在 Cline 中免费使用一个月,声称性能优于 Gemini 和 DeepSeek 的 flash 模型,并在 SWE Bench 上接近前沿水平。
作者分享了他们在Nex-N2 Pro上的体验,最初误以为是Rio-3.5,并发现它在编码基准测试中表现异常出色,无幻觉问题,在他们的Mac设备上可与GPT-5.x媲美。
Ramp发布了自己私有的SWE-Bench基准测试,该测试基于真实的工程问题构建,使其能够在自身的金融软件生态系统中评估编码模型。
FrontierCode 是 METR 和 Cognition 推出的新编程基准,用于评估 AI 模型在代码可维护性和质量方面的表现,结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量,并表明即使顶尖模型也难以应对,其中 Opus 4.8 在最难的等级上仅获得 13.8%。
Cognition 推出了 FrontierCode,这是一个高质量的编程基准测试,超越了单纯的单元测试,用于衡量代码的可维护性、回归安全性和质量,由 20 多位开源开发者精心设计了 150 个任务。
Qwen 3.6 27B 在 DeepSWE 基准测试中获得了 2% 的分数,排名 18/20,高于 Haiku 4.5 和 Minimax M2.7,突显了本地模型与前沿模型之间的差距。
讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳,而第三方框架可能导致表现不佳,尽管基准测试成绩出色。文中引用了Claude Code(针对Claude模型)和Codex(针对GPT模型)等示例。
Jiayuan Zhang分享了对M3模型coding能力的初步体验,称相比m2.7有质的提升,但1-shot结果不如Opus 4.6/4.7和GPT5.5全面。
Apex-Testing 是一个用于评估智能编码模型的基准测试,基于真实的私有 GitHub 仓库。该测试已更新,加入了最新模型和详细指标,包括成本、时间以及基于 ELO 的排行榜。
根据Arena排行榜,开放权重模型GLM和Mimo在编程基准测试中优于Gemini 3.5 Flash。
AntLingAGI 发布了 Ring-2.6-1T,一个万亿参数的开源AI模型,专为长周期工作流和实际编码任务设计,在 Tau2-Bench、GPQA Diamond 和 ClawEval 上取得了令人印象深刻的基准成绩。
Poetiq的Meta-System通过标准API访问进行递归自我改进,无需微调,在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果,超越了GPT 5.5等领先模型。
本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现,发现GLM在多数任务中整体领先但非绝对,各模型各有优劣。
Kimi K2 以 460 万美元的训练成本,在编程基准测试中击败了 GPT-5 和 Claude Opus 4.7,其创始人还提供了详细的技术解析。
将 Qwen3.6-35B 与 little-coder 代理框架结合,在 Polyglot 编程基准上达到 78.7%,跻身公开榜前十,直追云端模型。