标签
Agent Judge 是一种智能体评估工具,通过处理长轨迹、对照事实源系统验证状态化动作以及适应行为变化,克服了简单 LLM 评判器在长周期智能体评估中的局限性。
一篇关于使用自动化提示优化和评估构建前沿智能体的论文已被KDD 2026接收。