@a1zhang: RLM arXiv 论文更新:depth>1 的结果、更多比较、更多训练和更多错误分析!我们增加了 depth=2/3 的实验…

X AI KOLs Following 论文

摘要

此次RLM arXiv论文更新增加了使用递归RLM调用的depth>1实验,在OOLONG-Pairs和其他基准测试中显示出显著的性能提升,同时还增加了与OpenCode和Claude Code的新比较、在MRCRv2上的额外训练结果,以及扩展的错误分析。

RLM arXiv论文更新:depth>1的结果、更多比较、更多训练和更多错误分析!我们增加了depth=2/3的实验,其中RLM现在可以访问递归RLM调用。这也是开源 `rlm` 仓库的一个特性。我们观察到在OOLONG-Pairs上有显著的性能提升,并在所有其他基准测试上也有提升!我们还根据广泛要求增加了各种OpenCode和Claude Code的比较。我们在MRCRv2上添加了一个长度泛化实验以展示更有前景的训练结果,添加了一个关于OOLONG的小型提示案例研究,并更新了错误分析部分,讨论了语法错误、分解错误的影响以及来自RLM轨迹的总体观察。附录现在也更新了几个新实验和图表!
查看原文

相似文章

强化递归语言模型(18分钟阅读)

TLDR AI

本文探讨了利用强化学习微调小型(4B)递归语言模型(RLM)从科学文档中选取证据,结果表明经过强化学习训练的4B模型在模型大小和成本仅为其一小部分的情况下,达到了与Claude Sonnet 4.6相当的性能。

DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。