标签
作者分享了他使用RLM处理日常任务(如编码、处理数百万token的日志和浏览器自动化)的经验,并将其作为一个可通过pip安装的开源Python包发布。
HALO是一款开源桌面应用,它利用基于模型的强化学习(RLM)技术来本地调试和优化AI代理追踪,并提供分析和可行建议。
Ax 是一个开源 TypeScript 库,实现了 DSPy 风格的类型化签名和代理框架,用于以最少的提示词构建可靠的 AI 应用。它支持多个 LLM 提供商,并包含代理、流程、RAG 和自优化管道等功能。
fast-rlm 使强化学习模型能够通过 stdio 或 HTTP 访问 MCP 服务器,允许使用工具和获取资源,结果保存为 REPL 中的 Python 变量以节省输入令牌。
`fast-rlm` 新更新引入了 REPL Tool Calling,允许代理通过 REPL 调用 Python 函数,并将输出存储在变量中。演示展示了网页搜索和 Goodreads 评论的集成。
本文探讨了利用强化学习微调小型(4B)递归语言模型(RLM)从科学文档中选取证据,结果表明经过强化学习训练的4B模型在模型大小和成本仅为其一小部分的情况下,达到了与Claude Sonnet 4.6相当的性能。
此次RLM arXiv论文更新增加了使用递归RLM调用的depth>1实验,在OOLONG-Pairs和其他基准测试中显示出显著的性能提升,同时还增加了与OpenCode和Claude Code的新比较、在MRCRv2上的额外训练结果,以及扩展的错误分析。
Isaac Flath 预测,RLM 将通过让 Agent 在 REPL 中穿插自然语言的方式,让 notebook 重新火起来。
一条社交媒体动态,推荐一篇把 RLM 和 DSPy 应用于多模态数据的文章。
LongCoT 推出两块智能体新榜(受限/开放基准),其中 GPT 5.2 RLM 以 25.12% 的得分领跑开放基准。
一位研究人员评论了 RLM 论文的简洁与优雅,将其与具有影响力的 ReAct 论文相提并论,并对其解决通用问题的直观思路表示赞赏。
一位开发者分享了使用 RLM 的实践经验,表示其能够有效承载高达数千万 token 的超长上下文窗口,这标志着上下文处理能力实现了显著跨越。