针对自主AI供应商的开源采购评估标准，我对其中5家进行了评分，希望能获得关于评估方法的反馈

Reddit r/AI_Agents 2026/06/11 14:16 工具

open-source procurement agentic-ai rubric vendor-evaluation documentation-scoring

摘要

作者创建了一个开源评估工具，用于评估自主AI供应商在工具调用正确性、循环终止和多步状态一致性方面的文档，对五家供应商（Anthropic、OpenAI、LangGraph、Sierra、Salesforce）进行了评分，并请求就评估方法及对公开文档深度的潜在偏差提供反馈。

我构建了一个工具，根据包含15个问题的评估标准对自主AI供应商的文档进行评分，这些问题涵盖工具调用正确性、循环终止和多步状态一致性。将供应商的公开文档文件夹拖入，即可获得一份结构化报告，其中包含每个评分的逐字证据引用。我只使用了5家知名供应商的公开材料进行了测试： - Anthropic Claude Agent SDK: 3.27 / 5 - OpenAI Agents SDK: 3.20 / 5 - LangGraph: 2.67 / 5 - Sierra: 2.47 / 5 - Salesforce Agentforce: 2.27 / 5 Salesforce排名最后，尽管它拥有最广泛的企业合规覆盖范围（SOC 2、ISO 27001、PCI-DSS、HIPAA、FedRAMP、GDPR）。评估标准因其未发布定量红队数据、未公开买家可见的步骤/成本上限以及保持Atlas推理引擎源代码封闭而对其扣分。基础模型平台之所以胜出，是因为它们更多地展示了“工作过程”，事实证明这比合规广度对采购而言更重要。我希望得到反馈的地方： 1. 供应商文件夹（vendors/*/）——我对每家供应商的评分是否公平，还是遗漏了它们文档中实际涵盖的内容？ 2. “展示工作过程”的偏差——奖励公开文档深度是否是采购的正确信号，还是我在惩罚合法的专有供应商？ GitHub链接在评论中。

查看原文

针对自主AI供应商的开源采购评估标准，我对其中5家进行了评分，希望能获得关于评估方法的反馈

相似文章

代理审核系统基准测试

我信任评分了171个开源AI智能体——大多数无法证明其供应链

大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2057867718632550782

Open Code Review – 一款由 AI 驱动的代码审查 CLI 工具

提交意见反馈