scientific-documents

#scientific-documents

强化递归语言模型（18分钟阅读）

TLDR AI ↗ · 2026-05-13 缓存

本文探讨了利用强化学习微调小型（4B）递归语言模型（RLM）从科学文档中选取证据，结果表明经过强化学习训练的4B模型在模型大小和成本仅为其一小部分的情况下，达到了与Claude Sonnet 4.6相当的性能。

0 人收藏 0 人点赞