标签
提出了 Dialogue-SWE-Bench,这是一个用于评估编码代理通过与用户对话解决软件工程问题能力的基准测试。该研究还提出了一种基于角色设定的用户模拟器和一个能够提升对话能力的模式引导型代理。
文章认为传统的聊天机器人QA是有缺陷的,因为它只测试了理想路径(happy path),并提出使用AI驱动的用户模拟器,通过多样化的角色和边缘案例来攻击机器人,在部署前发现漏洞。