hazards

标签

Cards List
#hazards

超越函数调用:在工具环境不可靠性下对工具使用代理进行基准测试

arXiv cs.CL · 11小时前 缓存

介绍ToolBench-X,这是一个基准测试,用于评估各种工具环境可靠性隐患下的大语言模型代理,揭示了与干净环境相比性能上的显著差距。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈