标签
本文介绍了一种针对在FHIR医疗数据上运行的工具调用LLM代理的强化学习后训练流水线,在使用较小的Qwen3-8B模型时,在FHIR-AgentBench上达到了77%的答案正确率,而o4-mini仅为50%。
本文探讨了 AI 工程中 ReAct 和 CodeAct 两种编排范式的利弊,强调了 CodeAct 在处理复杂任务时的高效性,并介绍了一个新的开源框架。
递归语言模型(RLMs)引入了一种与任务无关的推理范式,使语言模型能够通过递归地在输入上调用自身来处理近乎无限的上下文,同时还提供了配套的开源推理引擎和训练环境。