Alpie Core 32B, 4位:任何真实智能体工作流测试或仅供应商基准测试?

Reddit r/AI_Agents 模型

摘要

文章质疑了Alpie Core 32B(一个针对低显存和智能体工作流优化的4位推理编码模型)的供应商基准测试的有效性,指出缺乏独立的基准测试复现。

纸面上,它被描述为强大的推理编码模型,通过4位部署优化了低显存,定位于工具使用和智能体工作流。基准测试声称包括与更大前沿模型的竞争得分(来自供应商报告)。我尚未能找到的是:任何独立的基准测试复现?
查看原文

相似文章

合并你PR的智能体,尚无基准可循。

Reddit r/AI_Agents

Artificial Analysis 推出了一个编码智能体指数,该指数分别测试框架与模型的组合,强调基准测试任务与实际生产需求不同。文章认为,团队应基于自身的代码库和工作流来评估智能体配置,而非仅依赖标准化基准。

ProgramBench(5分钟阅读)

TLDR AI

ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。