reward-contrast

标签

Cards List
#reward-contrast

TRACE:一种用于高效智能体强化学习的统一展开预算分配框架

Hugging Face Daily Papers · 2026-06-09 缓存

TRACE是一个统一的展开预算分配框架,通过基于前缀信息性在树状展开中动态分配资源,增强多轮智能体强化学习中的奖励对比。它在Multi-Hop QA等智能体基准测试上提升了效率和准确性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈