针对自主AI供应商的开源采购评估标准,我对其中5家进行了评分,希望能获得关于评估方法的反馈

Reddit r/AI_Agents 工具

摘要

作者创建了一个开源评估工具,用于评估自主AI供应商在工具调用正确性、循环终止和多步状态一致性方面的文档,对五家供应商(Anthropic、OpenAI、LangGraph、Sierra、Salesforce)进行了评分,并请求就评估方法及对公开文档深度的潜在偏差提供反馈。

我构建了一个工具,根据包含15个问题的评估标准对自主AI供应商的文档进行评分,这些问题涵盖工具调用正确性、循环终止和多步状态一致性。将供应商的公开文档文件夹拖入,即可获得一份结构化报告,其中包含每个评分的逐字证据引用。我只使用了5家知名供应商的公开材料进行了测试: - Anthropic Claude Agent SDK: 3.27 / 5 - OpenAI Agents SDK: 3.20 / 5 - LangGraph: 2.67 / 5 - Sierra: 2.47 / 5 - Salesforce Agentforce: 2.27 / 5 Salesforce排名最后,尽管它拥有最广泛的企业合规覆盖范围(SOC 2、ISO 27001、PCI-DSS、HIPAA、FedRAMP、GDPR)。评估标准因其未发布定量红队数据、未公开买家可见的步骤/成本上限以及保持Atlas推理引擎源代码封闭而对其扣分。基础模型平台之所以胜出,是因为它们更多地展示了“工作过程”,事实证明这比合规广度对采购而言更重要。我希望得到反馈的地方: 1. 供应商文件夹(vendors/*/)——我对每家供应商的评分是否公平,还是遗漏了它们文档中实际涵盖的内容? 2. “展示工作过程”的偏差——奖励公开文档深度是否是采购的正确信号,还是我在惩罚合法的专有供应商? GitHub链接在评论中。
查看原文

相似文章

代理审核系统基准测试

arXiv cs.AI

本文对用于同行评审的代理审核系统进行基准测试,评估了开源和专有系统在研究论文上的表现。最佳配置实现了83.0%的成对准确率,并捕获了71.6%的注入错误,但用户反馈强调了误报和吹毛求疵的问题。

Open Code Review – 一款由 AI 驱动的代码审查 CLI 工具

Hacker News Top

阿里巴巴已将 Open Code Review 开源,这是一款由 AI 驱动的代码审查 CLI 工具,将确定性工程方法与 LLM 智能体能力相结合。该工具最初作为内部工具使用,服务于数万名开发者,已识别出数百万处缺陷。它通过读取 Git diff 输出,利用可配置的模型端点生成结构化的行级审查意见。