hf-paper

标签

Cards List
#hf-paper

APPO: 智能体过程策略优化

Hugging Face Daily Papers · 5天前 缓存

APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈