标签
关于在 Towards Data Science 上发表的一篇递归语言模型文章的推广推文。
探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。
论文提出信号驱动观测(SDO)方法,使Web代理避免上下文退化,仅读取DOM中与任务相关的部分,并仅在特定信号触发时重新调用观测,而不是在每个动作步骤读取完整页面状态。
一篇关于递归语言模型(RLM)的教育性深度文章,解释了RLM是什么、为何它们能在长上下文基准测试中胜出,以及它们与现有智能体框架(如ReAct或CodeAct)的不同之处,并通过一个简单的案例研究进行说明。
本文探讨了利用强化学习微调小型(4B)递归语言模型(RLM)从科学文档中选取证据,结果表明经过强化学习训练的4B模型在模型大小和成本仅为其一小部分的情况下,达到了与Claude Sonnet 4.6相当的性能。
本文讨论了反AI宣传的努力,并重点介绍了近期AI行业新闻,包括英伟达的开源举措、OpenAI与亚马逊的交易、Grok降低视频价格以及递归语言模型。
本文介绍了递归语言模型(Recursive Language Models, RLMs),这是一种推理策略,使大型语言模型(LLMs)能够通过将任意长的提示视为外部环境,并在提示片段上递归调用自身来处理这些提示。RLMs可以处理超出上下文窗口两个数量级的输入,并且在长上下文任务上以可比的成本优于基础LLMs。
递归语言模型(RLMs)引入了一种与任务无关的推理范式,使语言模型能够通过递归地在输入上调用自身来处理近乎无限的上下文,同时还提供了配套的开源推理引擎和训练环境。