automated-benchmarking

#automated-benchmarking

STAGE-Claw：面向真实场景的自动化基于状态的智能体基准测试

arXiv cs.AI ↗ · 10小时前缓存

本文介绍了STAGE-Claw，一个用于在基于状态的计算环境中构建和评估真实个人智能体场景的自动化框架，实现了对由大语言模型驱动的智能体的可扩展、基于状态的评估。

0 人收藏 0 人点赞