coding-benchmark

标签

Cards List
#coding-benchmark

@SlimTradeyBaby: 所有8-12GB GPU用户注意!这款全新的Ornith-1.0-9B看起来将成为小显存配置的强劲选手…

X AI KOLs Timeline · 4天前 缓存

Ornith-1.0-9B是一款新的90亿参数AI模型,针对8-12GB GPU进行了优化,在智能体编码基准测试中表现出色,性能与大小为其2-3倍的模型相当甚至超越。

0 人收藏 0 人点赞
#coding-benchmark

@cognition: 在 Devin Desktop 和 CLI 中免费试用 Kimi K2.7 和 GLM 5.2

X AI KOLs Following · 6天前 缓存

Devin Desktop 现已支持 Kimi K2.7 和 GLM 5.2 模型,为 Pro/Max/Teams 用户提供免费试用,截止至7月5日。

0 人收藏 0 人点赞
#coding-benchmark

GLM 5.2 对比 Opus

Hacker News Top · 2026-06-22 缓存

GLM 5.2 是 Z.ai 推出的全新开放权重模型,与 Claude Opus 在 3D 游戏编码任务中进行了对比。Opus 性能更快更清晰,但 GLM 5.2 在成本和易用性上具有显著优势。

0 人收藏 0 人点赞
#coding-benchmark

@cline: Step 3.7 Flash 在 Cline 中下个月免费。它击败了 Gemini 和 DeepSeek 的 flash 模型,并且出人意料地接近…

X AI KOLs Following · 2026-06-17 缓存

Step 3.7 Flash 是一个开放权重的模型,拥有 256k 上下文窗口,可在 Cline 中免费使用一个月,声称性能优于 Gemini 和 DeepSeek 的 flash 模型,并在 SWE Bench 上接近前沿水平。

0 人收藏 0 人点赞
#coding-benchmark

Nex-N2 Pro 名副其实

Reddit r/LocalLLaMA · 2026-06-16

作者分享了他们在Nex-N2 Pro上的体验,最初误以为是Rio-3.5,并发现它在编码基准测试中表现异常出色,无幻觉问题,在他们的Mac设备上可与GPT-5.x媲美。

0 人收藏 0 人点赞
#coding-benchmark

Ramp SWE-Bench:一个私有的、基于生产环境的编码基准测试(3分钟阅读)

TLDR AI · 2026-06-15

Ramp发布了自己私有的SWE-Bench基准测试,该测试基于真实的工程问题构建,使其能够在自身的金融软件生态系统中评估编码模型。

0 人收藏 0 人点赞
#coding-benchmark

@swyx:终于发布了!!!@METR_Evals 发现 SWEBench 超半数的结果是无法合并的劣质代码。FrontierCode 代表…

X AI KOLs Following · 2026-06-08 缓存

FrontierCode 是 METR 和 Cognition 推出的新编程基准,用于评估 AI 模型在代码可维护性和质量方面的表现,结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量,并表明即使顶尖模型也难以应对,其中 Opus 4.8 在最难的等级上仅获得 13.8%。

0 人收藏 0 人点赞
#coding-benchmark

@scaling01: Opus 4.8 是目前最好的编程模型。Cognition 的 FrontierCode 可能是最高质量的编程基准测试……

X AI KOLs Timeline · 2026-06-08 缓存

Cognition 推出了 FrontierCode,这是一个高质量的编程基准测试,超越了单纯的单元测试,用于衡量代码的可维护性、回归安全性和质量,由 20 多位开源开发者精心设计了 150 个任务。

0 人收藏 0 人点赞
#coding-benchmark

Qwen 3.6 27B 在 DeepSWE 上的表现

Reddit r/LocalLLaMA · 2026-06-07

Qwen 3.6 27B 在 DeepSWE 基准测试中获得了 2% 的分数,排名 18/20,高于 Haiku 4.5 和 Minimax M2.7,突显了本地模型与前沿模型之间的差距。

0 人收藏 0 人点赞
#coding-benchmark

观察:每个模型的最佳代理框架将由模型开发者自身提供

Reddit r/AI_Agents · 2026-06-01

讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳,而第三方框架可能导致表现不佳,尽管基准测试成绩出色。文中引用了Claude Code(针对Claude模型)和Codex(针对GPT模型)等示例。

0 人收藏 0 人点赞
#coding-benchmark

@jiayuan_jy: 几个客观性说明: 1)这一条和 MiniMax 没有任何关系(我从来不接商单) 2)「体感」不等于真实水平,不是量化数据 用了更多的一些体验,整体上 coding 能力对比 m2.7 是质的提升,目前发现的缺点是 1-shot 的结果相比…

X AI KOLs Following · 2026-06-01 缓存

Jiayuan Zhang分享了对M3模型coding能力的初步体验,称相比m2.7有质的提升,但1-shot结果不如Opus 4.6/4.7和GPT5.5全面。

0 人收藏 0 人点赞
#coding-benchmark

Apex-Testing:真实世界、真实仓库的智能编码基准测试(更新)

Reddit r/LocalLLaMA · 2026-05-23

Apex-Testing 是一个用于评估智能编码模型的基准测试,基于真实的私有 GitHub 仓库。该测试已更新,加入了最新模型和详细指标,包括成本、时间以及基于 ELO 的排行榜。

0 人收藏 0 人点赞
#coding-benchmark

根据Arena排行榜,开放权重模型GLM和Mimo优于Gemini 3.5 Flash

Reddit r/LocalLLaMA · 2026-05-19

根据Arena排行榜,开放权重模型GLM和Mimo在编程基准测试中优于Gemini 3.5 Flash。

0 人收藏 0 人点赞
#coding-benchmark

@DivyanshT91162: 开源AI正变得危险地强大 AntLingAGI 刚刚发布了 Ring-2.6-1T… 一个万亿参数的OSS模型,专为…

X AI KOLs Timeline · 2026-05-16 缓存

AntLingAGI 发布了 Ring-2.6-1T,一个万亿参数的开源AI模型,专为长周期工作流和实际编码任务设计,在 Tau2-Bench、GPQA Diamond 和 ClawEval 上取得了令人印象深刻的基准成绩。

0 人收藏 0 人点赞
#coding-benchmark

Poetiq:递归自我改进实现新的SOTA编码性能

Reddit r/singularity · 2026-05-15 缓存

Poetiq的Meta-System通过标准API访问进行递归自我改进,无需微调,在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果,超越了GPT 5.5等领先模型。

0 人收藏 0 人点赞
#coding-benchmark

Open source battle: GLM vs Kimi vs MiMo vs DeepSeek

Reddit r/LocalLLaMA · 2026-05-13 缓存

本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现,发现GLM在多数任务中整体领先但非绝对,各模型各有优劣。

0 人收藏 0 人点赞
#coding-benchmark

@埃万·卢斯拉:Kimi K2 的训练成本仅为 460 万美元。据报道,GPT-5 耗资数亿美元。Kimi 在编程方面依然击败了它。上周…

X AI KOLs Timeline · 2026-05-13

Kimi K2 以 460 万美元的训练成本,在编程基准测试中击败了 GPT-5 和 Claude Opus 4.7,其创始人还提供了详细的技术解析。

0 人收藏 0 人点赞
#coding-benchmark

搭配合适代理后,Qwen3.6-35B 可与云端模型一较高下

Reddit r/LocalLLaMA · 2026-04-22

将 Qwen3.6-35B 与 little-coder 代理框架结合,在 Polyglot 编程基准上达到 78.7%,跻身公开榜前十,直追云端模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈