标签
循环Transformer通过直接在架构中设计递归来实现内部推理,避免思维链必须通过生成离散token来模拟迭代的低效性,最新研究表明它在多跳推理上表现出色,并可通过稳定技术和自适应递归进一步提升。
本文探讨了将多跳文本-空间故事嵌入到几何感知模态(如网格)中的方法,展示了从纯语言推理切换到基于网格的推理时性能提升42%,并引入了一种用于LLM模态选择的切换度量。
本文将监管文件审查问题建模为LLM引导的规划问题,采用无向量文档树,配备浏览、读取和搜索工具,并以动态知识图谱作为状态。在针对NuScale FSAR文档的200个问题基准测试中,该系统达到了81.5%的准确率和0.93的RAGAS忠实度,显著优于现有RAG方法。
介绍了SAG(SQL-Retrieval Augmented Generation),一种基于SQL动态超边的新型检索增强生成架构,相比传统RAG和GraphRAG在多跳推理上更高效、成本更低,已在GitHub开源并取得不错评测结果。
本文提出了HyGRAG,一种层次化图RAG框架,整合了上下文与关系信息以支持多跳推理,在现有方法基础上实现了平均准确率提升9.7%。
一个开源的全栈管道,从原始文本构建知识图谱,使用混合搜索(密集向量+稀疏+图遍历)解决LLM中的多跳推理问题,并通过倒数排名融合和交叉编码器对结果进行重排序。
文章认为,知识图谱与向量数据库在企业AI中服务于不同目的,应结合使用而非相互替代。它推荐采用混合架构或像60x这样的托管解决方案,以同时处理语义检索和结构推理。
本文探讨了基于TMK的问题生成策略如何影响AI学习系统中程序性和多跳推理的数据集质量,比较了严格TMK生成、先转录后生成和TMK感知生成三种策略,并引入了一个基础性验证框架。
论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。
本文识别了CoCoNuT潜在推理范式中的'概念瓶颈',即隐藏状态在多次传递中被覆盖,并提出了AGCLR,该方法添加了门控持久记忆流以保留中间事实。在GSM8K、HotpotQA和ProsQA上使用GPT-2进行评估,结果显示一致性改进,尤其是在多跳任务上。
本文研究语言模型之间直接激活迁移是否能改善推理能力,使用从Pythia-160M到Pythia-410M的线性翻译层。尽管实现了高表示对齐,但迁移的激活并未改善多跳问答,产生了负面结果。
OCC-RAG 引入了一系列紧凑型小语言模型,这些模型针对忠实问答进行了优化,采用新颖的流程来合成多上下文多跳问答数据。该模型在推理和忠实度基准测试中表现出与大型模型相当的竞争性能。
本文介绍了'组合坍缩'这一现象,即语言模型虽然拥有稳定的事实知识,但仍无法将这些知识组合成正确的多跳推理,并提出了一个双门协议,以将组合失败与原子知识不稳定性分离开来。
提出Decompose-and-Refine(DaR)框架,用于基于成文法的法律问答。该框架将复杂问题分解为原子子问题,并生成参数化查询以实现精确的成文法检索,在KoBLEX基准测试上取得了改进。
一项新的斯坦福论文显示,在同等推理token预算下,单个LLM在多跳推理任务上通常优于多智能体系统,而多智能体设置带来的提升往往来自更多计算而非架构优势。该论文利用数据处理不等式解释为什么交接中的信息丢失会损害多智能体性能,并指出上下文质量是多智能体系统能够提供益处的关键因素。
本文介绍了PyRAG,这是一个将多跳检索增强生成重新表述为程序合成与执行的框架,使用可执行的Python代码来表示推理步骤,从而实现确定性反馈和自适应检索。
一款名为Memvid的新型开源记忆层宣称超越所有现有RAG系统,在LoCoMo上实现SOTA提升35%,多跳推理提升76%,并打包为单个.mv2文件。
本文引入了上下文收集决策过程(CGDP),这是一个用于建模LLM智能体搜索行为的POMDP框架,提出了能够提升多跳推理能力并降低Token消耗且不影响性能的干预措施。
本文介绍了 TGS-RAG,这是一个双向验证与补全框架,通过协同基于文本和基于图的检索增强生成(RAG),提高了多跳推理的准确性。
ConlangCrafter是一个多跳LLM流程,通过将构造语言(conlang)创建过程分解为包括音系、形态、句法、词汇生成和翻译在内的模块化阶段,实现构造语言的自动化创建。该系统利用LLMs的元语言推理能力,结合随机性注入和自我完善来生成连贯且类型学多样的构造语言。