multi-hop-qa

#multi-hop-qa

AGORA: 基于档案的智能体工作场所文档推理基准

arXiv cs.CL ↗ · 23小时前缓存

AGORA 是一个新的基准，用于评估大型语言模型在工作场所文档上进行基于档案的推理任务，包含 362 个问题，涉及 9,664 份真实文档。最强模型仅达到 59.4% 的准确率，凸显出巨大的改进空间。

0 人收藏 0 人点赞

#multi-hop-qa

@teach_fireworks: https://x.com/teach_fireworks/status/2067243590447952212

X AI KOLs Timeline ↗ · 2026-06-17 缓存

SAG（SQL-Augmented Generation）是一种基于SQL的检索增强生成新方法，通过将数据块转换为事件和实体，利用SQL连接查询实现多跳推理，在MuSiQue数据集上Recall从65.13%提升至80.04%，支持约5亿条数据的秒级线上检索，已开源。

0 人收藏 0 人点赞

#multi-hop-qa

超越并行采样：面向智能体搜索的多样化查询初始化

arXiv cs.AI ↗ · 2026-06-17 缓存

本文识别了智能体搜索中的锚点坍塌现象，即并行轨迹因相似的初始查询而收敛，并提出了 DivInit，一种无需训练的方法，通过采样多样的初始查询来提升多跳问答的性能。

0 人收藏 0 人点赞

#multi-hop-qa

上下文压缩并非单一方法：匹配预算下可读符号重表达与连贯摘要的对比

arXiv cs.CL ↗ · 2026-06-16 缓存

本文提出Telegraph English，一种可读的符号格式用于上下文压缩，在多跳问答数据集上优于匹配预算的基线方法，更密集地保留了实体内容。

0 人收藏 0 人点赞

#multi-hop-qa

大型语言模型中用于结构推理的视觉图支架

arXiv cs.AI ↗ · 2026-06-03 缓存

本文探讨了将视觉图思维导图用作LLMs的推理支架，发现即使没有直接答案提示，视觉引导仍然有效，而将图扁平化为文本则会失去优势。

0 人收藏 0 人点赞

#multi-hop-qa

ARBOR：通过可复用评分缓存为搜索代理提供在线过程奖励

arXiv cs.CL ↗ · 2026-06-03 缓存

ARBOR 引入了一种可复用的评分缓存，为基于LLM的搜索代理提供在线过程奖励，在仅依赖结果奖励不足时提升训练效率。它在多跳问答基准测试中优于 GRPO 和 DAPO，将多达42%的零梯度训练组转化为信息丰富的训练组。

0 人收藏 0 人点赞

#multi-hop-qa

StepGap: 一种混合NLI-LLM检测器用于多跳问答中的步骤级证据缺口检测

arXiv cs.CL ↗ · 2026-05-26 缓存

StepGap是一个混合NLI-LLM决策树，用于检测多跳问答中的步骤级证据缺口，并将其标记为矛盾声明、无关证据或缺失桥梁。它在实现有竞争力的F1分数的同时，提供了一种可分解的结构，当用作强化学习的过程奖励时，可以提高下游问答的性能。

0 人收藏 0 人点赞

#multi-hop-qa

通过逐步置信归因诊断黑盒大语言模型中的多步推理失败

arXiv cs.CL ↗ · 2026-05-20 缓存

提出逐步置信归因（SCA），一个无需内部访问即可为黑盒大语言模型的推理轨迹分配逐步置信度的框架，利用信息瓶颈原理区分合法变异性与错误。实验表明，SCA能可靠地识别低置信度步骤，并将自纠正成功率相比答案级别反馈提升高达13.5%。

0 人收藏 0 人点赞

#multi-hop-qa

利用知识图谱路径作为自进化搜索代理的中间监督

arXiv cs.AI ↗ · 2026-05-08 缓存

本文介绍了一种利用知识图谱路径作为中间监督来提升自进化搜索代理性能的方法。该方法通过将问题构建建立在关系上下文之上，并引入航点覆盖奖励（Waypoint Coverage Reward）以实现分级部分奖励，从而解决了搜索自博弈（Search Self-Play）中的瓶颈问题。

0 人收藏 0 人点赞

#multi-hop-qa

大语言模型搜索代理的推理时预算控制

arXiv cs.AI ↗ · 2026-05-08 缓存

本文提出了一种用于大语言模型（LLM）搜索代理的两阶段推理时预算控制方法，利用信息价值（VOI）分数在多跳问答过程中优化工具调用和 Token 分配。

0 人收藏 0 人点赞

#multi-hop-qa

OThink-SRR1：用强化学习为大模型实现搜索、精炼与推理

arXiv cs.CL ↗ · 2026-04-23 缓存

OThink-SRR1 提出迭代式“搜索-精炼-推理”框架，通过 GRPO-IR 强化学习降低检索噪声与 token 开销，同时提升多跳问答准确率。

0 人收藏 0 人点赞

multi-hop-qa

提交意见反馈