标签
作者测试了 Apodex 4B-SFT 和 35B mini 模型,发现 4B-SFT 在多跳搜索任务中超越其他 4B 模型且无幻觉,并指出将答案检查与生成分离的设计理念。
LongTraceRL 引入了分层干扰项构建和规则奖励设计,以通过强化学习改善语言模型中的长上下文推理。该方法通过知识图谱随机游走生成多跳问题,并利用搜索代理轨迹构建具有挑战性的干扰项,规则奖励提供实体级过程监督。