distractors

标签

Cards List
#distractors

LongTraceRL:利用规则奖励从搜索代理轨迹学习长上下文推理

Hugging Face Daily Papers · 2026-05-29 缓存

LongTraceRL 引入了分层干扰项构建和规则奖励设计,以通过强化学习改善语言模型中的长上下文推理。该方法通过知识图谱随机游走生成多跳问题,并利用搜索代理轨迹构建具有挑战性的干扰项,规则奖励提供实体级过程监督。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈