针对自主AI供应商的开源采购评估标准,我对其中5家进行了评分,希望能获得关于评估方法的反馈
摘要
作者创建了一个开源评估工具,用于评估自主AI供应商在工具调用正确性、循环终止和多步状态一致性方面的文档,对五家供应商(Anthropic、OpenAI、LangGraph、Sierra、Salesforce)进行了评分,并请求就评估方法及对公开文档深度的潜在偏差提供反馈。
我构建了一个工具,根据包含15个问题的评估标准对自主AI供应商的文档进行评分,这些问题涵盖工具调用正确性、循环终止和多步状态一致性。将供应商的公开文档文件夹拖入,即可获得一份结构化报告,其中包含每个评分的逐字证据引用。我只使用了5家知名供应商的公开材料进行了测试:
- Anthropic Claude Agent SDK: 3.27 / 5
- OpenAI Agents SDK: 3.20 / 5
- LangGraph: 2.67 / 5
- Sierra: 2.47 / 5
- Salesforce Agentforce: 2.27 / 5
Salesforce排名最后,尽管它拥有最广泛的企业合规覆盖范围(SOC 2、ISO 27001、PCI-DSS、HIPAA、FedRAMP、GDPR)。评估标准因其未发布定量红队数据、未公开买家可见的步骤/成本上限以及保持Atlas推理引擎源代码封闭而对其扣分。基础模型平台之所以胜出,是因为它们更多地展示了“工作过程”,事实证明这比合规广度对采购而言更重要。我希望得到反馈的地方:
1. 供应商文件夹(vendors/*/)——我对每家供应商的评分是否公平,还是遗漏了它们文档中实际涵盖的内容?
2. “展示工作过程”的偏差——奖励公开文档深度是否是采购的正确信号,还是我在惩罚合法的专有供应商?
GitHub链接在评论中。
相似文章
代理审核系统基准测试
本文对用于同行评审的代理审核系统进行基准测试,评估了开源和专有系统在研究论文上的表现。最佳配置实现了83.0%的成对准确率,并捕获了71.6%的注入错误,但用户反馈强调了误报和吹毛求疵的问题。
我信任评分了171个开源AI智能体——大多数无法证明其供应链
一位开发者创建了171个开源AI智能体的独立信任注册表,根据可验证的信任信号(如供应链安全和维护)进行评分,发现只有三个智能体获得A级评级,而许多流行智能体缺乏基本验证。
大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子
作者分享了他为识别和评估公司内 AI 用例而构建的智能体研究系统的实际分解。该系统使用六个智能体进行发现、评估和上下文提取,强调人在决策环中,而非完全自主。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2057867718632550782
对学术研究生命周期中250多种AI工具的全面调查,确定了五个关键原则,并强调了AI生成与验证能力之间日益扩大的差距。
Open Code Review – 一款由 AI 驱动的代码审查 CLI 工具
阿里巴巴已将 Open Code Review 开源,这是一款由 AI 驱动的代码审查 CLI 工具,将确定性工程方法与 LLM 智能体能力相结合。该工具最初作为内部工具使用,服务于数万名开发者,已识别出数百万处缺陷。它通过读取 Git diff 输出,利用可配置的模型端点生成结构化的行级审查意见。