reasoning-agents

标签

Cards List
#reasoning-agents

RICE-PO:将检索交互转化为推理代理的信用信号

arXiv cs.CL · 2026-05-27 缓存

RICE-PO 是一个无需评判器的策略优化框架,它将检索交互转化为局部化信用信号,用于训练推理代理。在相同检索器设置下,该框架在 BRIGHT 和 BEIR 基准测试中持续优于基于提示的代理和基于组的强化学习基线。

0 人收藏 0 人点赞
#reasoning-agents

Co-ReAct:将评分标准作为 ReAct 代理的步骤级协作工具

arXiv cs.AI · 2026-05-25 缓存

Co-ReAct 引入了一种基于评分标准的动作选择框架,在推理过程中将评分标准作为 ReAct 代理的步骤级指导,提高了轨迹质量,并在 DeepResearchBench 和 SQA-CS-V2 上超越了基线模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈