repository-level-tasks

标签

Cards List
#repository-level-tasks

SWE-Together: 在交互式用户会话中评估代码代理

Hugging Face Daily Papers · 2天前 缓存

SWE-Together 是一个基于真实用户-代理交互创建的多轮代码基准测试,采用反应式LLM模拟器,根据最终正确性和交互效率评估代理。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈