stateful-actions

标签

Cards List
#stateful-actions

Agent Judge:解决生产环境智能体的长上下文评估(10分钟阅读)

TLDR AI · 2026-05-29 缓存

Agent Judge 是一种智能体评估工具,通过处理长轨迹、对照事实源系统验证状态化动作以及适应行为变化,克服了简单 LLM 评判器在长周期智能体评估中的局限性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈