标签
本文介绍了一种名为DeLM(去中心化语言模型)的框架,这是一种用于多智能体系统的架构,它利用并行智能体和共享已验证上下文来改进测试时扩展并降低成本,在SWE-bench Verified和LongBench-v2上取得了最先进的结果。
LongTraceRL 引入了分层干扰项构建和规则奖励设计,以通过强化学习改善语言模型中的长上下文推理。该方法通过知识图谱随机游走生成多跳问题,并利用搜索代理轨迹构建具有挑战性的干扰项,规则奖励提供实体级过程监督。
MemReread 提出了一种长上下文推理方法,通过分解问题和重读文本来恢复被丢弃的信息,避免了中间检索,实现了线性时间复杂度。该方法在长上下文推理任务上优于基线框架。