search-agent

#search-agent

周末体验了 Apodex 4b，顺便快速看了下 35b mini

Reddit r/LocalLLaMA ↗ · 2天前

作者测试了 Apodex 4B-SFT 和 35B mini 模型，发现 4B-SFT 在多跳搜索任务中超越其他 4B 模型且无幻觉，并指出将答案检查与生成分离的设计理念。

0 人收藏 0 人点赞

#search-agent

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

LongTraceRL 引入了分层干扰项构建和规则奖励设计，以通过强化学习改善语言模型中的长上下文推理。该方法通过知识图谱随机游走生成多跳问题，并利用搜索代理轨迹构建具有挑战性的干扰项，规则奖励提供实体级过程监督。

0 人收藏 0 人点赞