Alpie Core 32B, 4位:任何真实智能体工作流测试或仅供应商基准测试?
摘要
文章质疑了Alpie Core 32B(一个针对低显存和智能体工作流优化的4位推理编码模型)的供应商基准测试的有效性,指出缺乏独立的基准测试复现。
纸面上,它被描述为强大的推理编码模型,通过4位部署优化了低显存,定位于工具使用和智能体工作流。基准测试声称包括与更大前沿模型的竞争得分(来自供应商报告)。我尚未能找到的是:任何独立的基准测试复现?
相似文章
合并你PR的智能体,尚无基准可循。
Artificial Analysis 推出了一个编码智能体指数,该指数分别测试框架与模型的组合,强调基准测试任务与实际生产需求不同。文章认为,团队应基于自身的代码库和工作流来评估智能体配置,而非仅依赖标准化基准。
AA 推出 Coding Agent Index —— 模型与 Harness 组合的性能对比
Artificial Analysis 推出了 Coding Agent Index,这是一套新的基准测试套件,结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA,旨在评估 AI 编程代理在多样化任务中的表现。
ProgramBench(5分钟阅读)
ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。
我不信这个 27B 模型能碾压 Opus 4.5!谁来用真实 Agent 工作流验证一下?
一个 27B 参数的模型据称在基准测试中击败 Opus 4.5,引发社区质疑,大家呼吁用真实 Agent 工作流验证。
我为编码智能体的“记忆”构建了一个基准测试,期待他人来挑战它
开发者创建了一个名为 continuity-benchmarks 的新基准测试,用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力,解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。