decision-optimization

标签

Cards List
#decision-optimization

通过不确定性对齐的强化学习探索智能体工具调用决策

arXiv cs.AI · 3天前 缓存

本文提出TRUST方法,将不确定性量化融入强化学习奖励设计,以改进LLM智能体的工具调用决策,提升决策质量并保持可靠的不确定性估计。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈