标签
本文识别了CoCoNuT潜在推理范式中的'概念瓶颈',即隐藏状态在多次传递中被覆盖,并提出了AGCLR,该方法添加了门控持久记忆流以保留中间事实。在GSM8K、HotpotQA和ProsQA上使用GPT-2进行评估,结果显示一致性改进,尤其是在多跳任务上。
本文研究语言模型之间直接激活迁移是否能改善推理能力,使用从Pythia-160M到Pythia-410M的线性翻译层。尽管实现了高表示对齐,但迁移的激活并未改善多跳问答,产生了负面结果。
OCC-RAG 引入了一系列紧凑型小语言模型,这些模型针对忠实问答进行了优化,采用新颖的流程来合成多上下文多跳问答数据。该模型在推理和忠实度基准测试中表现出与大型模型相当的竞争性能。
本文介绍了'组合坍缩'这一现象,即语言模型虽然拥有稳定的事实知识,但仍无法将这些知识组合成正确的多跳推理,并提出了一个双门协议,以将组合失败与原子知识不稳定性分离开来。
提出Decompose-and-Refine(DaR)框架,用于基于成文法的法律问答。该框架将复杂问题分解为原子子问题,并生成参数化查询以实现精确的成文法检索,在KoBLEX基准测试上取得了改进。
一项新的斯坦福论文显示,在同等推理token预算下,单个LLM在多跳推理任务上通常优于多智能体系统,而多智能体设置带来的提升往往来自更多计算而非架构优势。该论文利用数据处理不等式解释为什么交接中的信息丢失会损害多智能体性能,并指出上下文质量是多智能体系统能够提供益处的关键因素。
本文介绍了PyRAG,这是一个将多跳检索增强生成重新表述为程序合成与执行的框架,使用可执行的Python代码来表示推理步骤,从而实现确定性反馈和自适应检索。
一款名为Memvid的新型开源记忆层宣称超越所有现有RAG系统,在LoCoMo上实现SOTA提升35%,多跳推理提升76%,并打包为单个.mv2文件。
本文引入了上下文收集决策过程(CGDP),这是一个用于建模LLM智能体搜索行为的POMDP框架,提出了能够提升多跳推理能力并降低Token消耗且不影响性能的干预措施。
本文介绍了 TGS-RAG,这是一个双向验证与补全框架,通过协同基于文本和基于图的检索增强生成(RAG),提高了多跳推理的准确性。
ConlangCrafter是一个多跳LLM流程,通过将构造语言(conlang)创建过程分解为包括音系、形态、句法、词汇生成和翻译在内的模块化阶段,实现构造语言的自动化创建。该系统利用LLMs的元语言推理能力,结合随机性注入和自我完善来生成连贯且类型学多样的构造语言。