你的框架辜负了你的智能体,但却没有基准来证明这一点

Reddit r/AI_Agents 新闻

摘要

本文强调了缺乏用于评估智能体框架可靠性的基准测试,重点探讨了与模型本身相比,MCP 实现如何更好地处理工具调用和错误。

你可以针对函数调用、多轮工具使用以及 Schema 遵循情况来比较不同的模型。基本上,在模型层面已经有相当多的公开数据。那么为什么我在框架层面却找不到可靠性数据呢?我想看到的不是哪种模型调用工具的效果最好,而是哪种框架实现在面对格式错误的工具响应时,不会静默吞掉错误;哪种框架的重试机制能真正解决问题而不是使问题恶化;以及哪种框架能以模型能够真正进行推理的格式来暴露故障。我已将 MCP 作为默认的集成层,并开始将 MCP 服务器视为基础设施。但从我所见到的情况来看,MCP 实现的质量参差不齐,这种差异比我们愿意承认的更为显著。模型常常被指责为工具调用行为不佳的罪魁祸首,但很多时候,故障实际上出在它底层的处理层上。有人会对实际实现进行压力测试,而不仅仅是测试位于其上的模型吗?
查看原文

相似文章