coding-benchmark

标签

#coding-benchmark

@SlimTradeyBaby: 所有8-12GB GPU用户注意！这款全新的Ornith-1.0-9B看起来将成为小显存配置的强劲选手…

X AI KOLs Timeline ↗ · 4天前缓存

Ornith-1.0-9B是一款新的90亿参数AI模型，针对8-12GB GPU进行了优化，在智能体编码基准测试中表现出色，性能与大小为其2-3倍的模型相当甚至超越。

0 人收藏 0 人点赞

#coding-benchmark

@cognition: 在 Devin Desktop 和 CLI 中免费试用 Kimi K2.7 和 GLM 5.2

X AI KOLs Following ↗ · 5天前缓存

Devin Desktop 现已支持 Kimi K2.7 和 GLM 5.2 模型，为 Pro/Max/Teams 用户提供免费试用，截止至7月5日。

0 人收藏 0 人点赞

#coding-benchmark

GLM 5.2 对比 Opus

Hacker News Top ↗ · 2026-06-22 缓存

GLM 5.2 是 Z.ai 推出的全新开放权重模型，与 Claude Opus 在 3D 游戏编码任务中进行了对比。Opus 性能更快更清晰，但 GLM 5.2 在成本和易用性上具有显著优势。

0 人收藏 0 人点赞

#coding-benchmark

@cline: Step 3.7 Flash 在 Cline 中下个月免费。它击败了 Gemini 和 DeepSeek 的 flash 模型，并且出人意料地接近…

X AI KOLs Following ↗ · 2026-06-17 缓存

Step 3.7 Flash 是一个开放权重的模型，拥有 256k 上下文窗口，可在 Cline 中免费使用一个月，声称性能优于 Gemini 和 DeepSeek 的 flash 模型，并在 SWE Bench 上接近前沿水平。

0 人收藏 0 人点赞

#coding-benchmark

Nex-N2 Pro 名副其实

Reddit r/LocalLLaMA ↗ · 2026-06-16

作者分享了他们在Nex-N2 Pro上的体验，最初误以为是Rio-3.5，并发现它在编码基准测试中表现异常出色，无幻觉问题，在他们的Mac设备上可与GPT-5.x媲美。

0 人收藏 0 人点赞

#coding-benchmark

Ramp SWE-Bench：一个私有的、基于生产环境的编码基准测试（3分钟阅读）

TLDR AI ↗ · 2026-06-15

Ramp发布了自己私有的SWE-Bench基准测试，该测试基于真实的工程问题构建，使其能够在自身的金融软件生态系统中评估编码模型。

0 人收藏 0 人点赞

#coding-benchmark

@swyx：终于发布了！！！@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

X AI KOLs Following ↗ · 2026-06-08 缓存

FrontierCode 是 METR 和 Cognition 推出的新编程基准，用于评估 AI 模型在代码可维护性和质量方面的表现，结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量，并表明即使顶尖模型也难以应对，其中 Opus 4.8 在最难的等级上仅获得 13.8%。

0 人收藏 0 人点赞

#coding-benchmark

@scaling01: Opus 4.8 是目前最好的编程模型。Cognition 的 FrontierCode 可能是最高质量的编程基准测试……

X AI KOLs Timeline ↗ · 2026-06-08 缓存

Cognition 推出了 FrontierCode，这是一个高质量的编程基准测试，超越了单纯的单元测试，用于衡量代码的可维护性、回归安全性和质量，由 20 多位开源开发者精心设计了 150 个任务。

0 人收藏 0 人点赞

#coding-benchmark

Qwen 3.6 27B 在 DeepSWE 上的表现

Reddit r/LocalLLaMA ↗ · 2026-06-07

Qwen 3.6 27B 在 DeepSWE 基准测试中获得了 2% 的分数，排名 18/20，高于 Haiku 4.5 和 Minimax M2.7，突显了本地模型与前沿模型之间的差距。

0 人收藏 0 人点赞

#coding-benchmark

观察：每个模型的最佳代理框架将由模型开发者自身提供

Reddit r/AI_Agents ↗ · 2026-06-01

讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳，而第三方框架可能导致表现不佳，尽管基准测试成绩出色。文中引用了Claude Code（针对Claude模型）和Codex（针对GPT模型）等示例。

0 人收藏 0 人点赞

#coding-benchmark

@jiayuan_jy: 几个客观性说明： 1）这一条和 MiniMax 没有任何关系（我从来不接商单） 2）「体感」不等于真实水平，不是量化数据用了更多的一些体验，整体上 coding 能力对比 m2.7 是质的提升，目前发现的缺点是 1-shot 的结果相比…

X AI KOLs Following ↗ · 2026-06-01 缓存

Jiayuan Zhang分享了对M3模型coding能力的初步体验，称相比m2.7有质的提升，但1-shot结果不如Opus 4.6/4.7和GPT5.5全面。

0 人收藏 0 人点赞

#coding-benchmark

Apex-Testing：真实世界、真实仓库的智能编码基准测试（更新）

Reddit r/LocalLLaMA ↗ · 2026-05-23

Apex-Testing 是一个用于评估智能编码模型的基准测试，基于真实的私有 GitHub 仓库。该测试已更新，加入了最新模型和详细指标，包括成本、时间以及基于 ELO 的排行榜。

0 人收藏 0 人点赞

#coding-benchmark

根据Arena排行榜，开放权重模型GLM和Mimo优于Gemini 3.5 Flash

Reddit r/LocalLLaMA ↗ · 2026-05-19

根据Arena排行榜，开放权重模型GLM和Mimo在编程基准测试中优于Gemini 3.5 Flash。

0 人收藏 0 人点赞

#coding-benchmark

@DivyanshT91162: 开源AI正变得危险地强大 AntLingAGI 刚刚发布了 Ring-2.6-1T… 一个万亿参数的OSS模型，专为…

X AI KOLs Timeline ↗ · 2026-05-16 缓存

AntLingAGI 发布了 Ring-2.6-1T，一个万亿参数的开源AI模型，专为长周期工作流和实际编码任务设计，在 Tau2-Bench、GPQA Diamond 和 ClawEval 上取得了令人印象深刻的基准成绩。

0 人收藏 0 人点赞

#coding-benchmark

Poetiq：递归自我改进实现新的SOTA编码性能

Reddit r/singularity ↗ · 2026-05-15 缓存

Poetiq的Meta-System通过标准API访问进行递归自我改进，无需微调，在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果，超越了GPT 5.5等领先模型。

0 人收藏 0 人点赞

#coding-benchmark

Open source battle: GLM vs Kimi vs MiMo vs DeepSeek

Reddit r/LocalLLaMA ↗ · 2026-05-13 缓存

本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现，发现GLM在多数任务中整体领先但非绝对，各模型各有优劣。

0 人收藏 0 人点赞

#coding-benchmark

@埃万·卢斯拉：Kimi K2 的训练成本仅为 460 万美元。据报道，GPT-5 耗资数亿美元。Kimi 在编程方面依然击败了它。上周…

X AI KOLs Timeline ↗ · 2026-05-13

Kimi K2 以 460 万美元的训练成本，在编程基准测试中击败了 GPT-5 和 Claude Opus 4.7，其创始人还提供了详细的技术解析。

0 人收藏 0 人点赞

#coding-benchmark

搭配合适代理后，Qwen3.6-35B 可与云端模型一较高下

Reddit r/LocalLLaMA ↗ · 2026-04-22

将 Qwen3.6-35B 与 little-coder 代理框架结合，在 Polyglot 编程基准上达到 78.7%，跻身公开榜前十，直追云端模型。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈