distractors

#distractors

LongTraceRL：利用规则奖励从搜索代理轨迹学习长上下文推理

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

LongTraceRL 引入了分层干扰项构建和规则奖励设计，以通过强化学习改善语言模型中的长上下文推理。该方法通过知识图谱随机游走生成多跳问题，并利用搜索代理轨迹构建具有挑战性的干扰项，规则奖励提供实体级过程监督。

0 人收藏 0 人点赞