search-agent

标签

Cards List
#search-agent

周末体验了 Apodex 4b,顺便快速看了下 35b mini

Reddit r/LocalLLaMA · 2天前

作者测试了 Apodex 4B-SFT 和 35B mini 模型,发现 4B-SFT 在多跳搜索任务中超越其他 4B 模型且无幻觉,并指出将答案检查与生成分离的设计理念。

0 人收藏 0 人点赞
#search-agent

LongTraceRL:利用规则奖励从搜索代理轨迹学习长上下文推理

Hugging Face Daily Papers · 2026-05-29 缓存

LongTraceRL 引入了分层干扰项构建和规则奖励设计,以通过强化学习改善语言模型中的长上下文推理。该方法通过知识图谱随机游走生成多跳问题,并利用搜索代理轨迹构建具有挑战性的干扰项,规则奖励提供实体级过程监督。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈