decision-optimization

标签

#decision-optimization

通过不确定性对齐的强化学习探索智能体工具调用决策

arXiv cs.AI ↗ · 3天前缓存

本文提出TRUST方法，将不确定性量化融入强化学习奖励设计，以改进LLM智能体的工具调用决策，提升决策质量并保持可靠的不确定性估计。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈