automated-evals

标签

Cards List
#automated-evals

Agent Judge:解决生产环境智能体的长上下文评估(10分钟阅读)

TLDR AI · 6天前 缓存

Agent Judge 是一种智能体评估工具,通过处理长轨迹、对照事实源系统验证状态化动作以及适应行为变化,克服了简单 LLM 评判器在长周期智能体评估中的局限性。

0 人收藏 0 人点赞
#automated-evals

@aman2304: 论文被KDD 2026接收!我们正在使用自动化提示优化和评估构建前沿智能体!一如既往…

X AI KOLs Following · 2026-05-18 缓存

一篇关于使用自动化提示优化和评估构建前沿智能体的论文已被KDD 2026接收。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈