标签
Co-ReAct 引入了一种基于评分标准的动作选择框架,在推理过程中将评分标准作为 ReAct 代理的步骤级指导,提高了轨迹质量,并在 DeepResearchBench 和 SQA-CS-V2 上超越了基线模型。