state-based-evaluation

标签

Cards List
#state-based-evaluation

STAGE-Claw:面向真实场景的自动化基于状态的智能体基准测试

arXiv cs.AI · 13小时前 缓存

本文介绍了STAGE-Claw,一个用于在基于状态的计算环境中构建和评估真实个人智能体场景的自动化框架,实现了对由大语言模型驱动的智能体的可扩展、基于状态的评估。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈