trajectory-evaluation

标签

Cards List
#trajectory-evaluation

离线偏好轨迹评估

arXiv cs.LG · 2026-06-17 缓存

本文提出了一种针对智能体系统的离线偏好轨迹评估方法,通过时间偏好而非二元成功指标来比较轨迹。研究表明,该方法将平局比例从约75%降低到35%,从而提升了跨多样化基准的区分能力和数据效率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈