openjudge

标签

Cards List
#openjudge

@Ali_TongyiLab: https://x.com/Ali_TongyiLab/status/2067158015615041755

X AI KOLs Timeline · 2天前 缓存

AgentScope团队推出了PawBench,这是一个用于评估模型与代理框架综合性能的基准测试。通过对4,050个测试单元的分析,结果表明框架选择的影响堪比模型升级。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈