@a1zhang: RLM arXiv 论文更新:depth>1 的结果、更多比较、更多训练和更多错误分析!我们增加了 depth=2/3 的实验…
摘要
此次RLM arXiv论文更新增加了使用递归RLM调用的depth>1实验,在OOLONG-Pairs和其他基准测试中显示出显著的性能提升,同时还增加了与OpenCode和Claude Code的新比较、在MRCRv2上的额外训练结果,以及扩展的错误分析。
RLM arXiv论文更新:depth>1的结果、更多比较、更多训练和更多错误分析!我们增加了depth=2/3的实验,其中RLM现在可以访问递归RLM调用。这也是开源 `rlm` 仓库的一个特性。我们观察到在OOLONG-Pairs上有显著的性能提升,并在所有其他基准测试上也有提升!我们还根据广泛要求增加了各种OpenCode和Claude Code的比较。我们在MRCRv2上添加了一个长度泛化实验以展示更有前景的训练结果,添加了一个关于OOLONG的小型提示案例研究,并更新了错误分析部分,讨论了语法错误、分解错误的影响以及来自RLM轨迹的总体观察。附录现在也更新了几个新实验和图表!
相似文章
强化递归语言模型(18分钟阅读)
本文探讨了利用强化学习微调小型(4B)递归语言模型(RLM)从科学文档中选取证据,结果表明经过强化学习训练的4B模型在模型大小和成本仅为其一小部分的情况下,达到了与Claude Sonnet 4.6相当的性能。
DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]
DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。
18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]
对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。
@hbouammar:也许长上下文推理别再靠模型自己写递归控制代码了。我们开源了 λ-RLM……
研究者发布 λ-RLM,一款开源的带类型 λ-演算运行时,用预验证组合子取代自写递归控制代码,将长上下文推理准确率最高提升 21.9%,在 36 项测试中赢下 29 场。
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。