@itarutomy: 一篇从头重建AI Agent研究"知识基础设施"的论文 (https://arxiv[.]org/html…

X AI KOLs Timeline 2026/06/29 08:40 论文

摘要

本文介绍了Agents-K1，一个基于246万篇论文构建的知识图谱系统，通过整合文本、图形、表格和方程式，以及五级引用分类，提升了AI Agent研究。它显著提高了Gemini-3和GPT-5.2等顶级模型在基准测试中的表现，表明优化知识结构比扩大模型规模更有效。

一篇从头重建AI Agent研究"知识基础设施"的论文 (https://arxiv[.]org/html/2606.13669v1)。上海AI实验室（PJLab）基于246万篇论文构建了一个名为"Agents-K1"的知识图谱系统。现有RAG（检索增强生成）的问题在于其粗糙的结构。它仅将文本存储为"主体-谓词-客体"三元组，忽略了图形、表格和方程式。引用仅记录为"是否被引用"。这对于需要跨多条证据进行推理的研究Agent来说是不够的。 Agents-K1改变了这一状况。它将文本、图形、表格和方程式视为同等证据，并将知识结构化为五个模块。其特别独特之处在于引用分类，它按照五级标准记录引用，从"没有这篇论文就不会存在（第5级）"到"仅仅是背景介绍（第1级）"。保留"为何被引用"意图的知识图谱很少见。提取模型仅使用了4B参数。使用一种强化学习（GRPO）在8块GPU上训练约一小时后，它在10个基准测试中的8个上超越了8B模型，甚至在命名实体识别（识别文本中的技术术语等任务）上超过了32B模型。在具有挑战性的研究论文基准"FrontierScience-Research"上，Gemini-3从7.9%提升至24.6%，GPT-5.2从25.2%提升至39.4%。地球科学领域的推理准确率从52.3%提升至69.5%。在跨文档的多跳问答中，它也优于所有九种现有方法。这篇论文展示了看似平凡的基础设施工作（如论文的"知识图谱化"）如何能够显著提升顶级模型的性能。它指向了一个方向：优化输入知识的结构比单纯扩大模型本身更有效。

查看原文

查看缓存全文

缓存时间: 2026/06/29 14:28

一篇从零重建AI Agent研究“知识基础设施”的论文（https://arxiv[.]org/html/2606.13669v1）。上海AI实验室（PJLab）基于246万篇论文构建了一个名为“Agents-K1“的知识图谱系统。

现有RAG（检索增强生成）的问题在于其结构粗糙。它只将文本存储为“主语-谓语-宾语“三元组，忽略了图表、表格和公式。引用仅记录为“是否被引用“。这对于需要在多份证据间进行推理的研究型Agent来说远远不够。

Agents-K1改变了这一点。它将文本、图形、表格和公式视为同等重要的证据，并将知识组织为五个模块。其独特之处在于引用分类：按五级量表记录引用，从“没有这篇论文就不会有当前成果（第5级）“到“仅仅是背景介绍（第1级）”。能保留“为什么被引用“这一意图的知识图谱非常少见。

抽取模型仅使用4B参数。在8块GPU上使用一种强化学习（GRPO）训练约一小时，便在10项基准测试中8项超越8B模型，甚至在命名实体识别（识别文本中技术术语等任务）上超越了32B模型。

在具有挑战性的学术论文基准“FrontierScience-Research“上，Gemini-3从7.9%提升至24.6%，GPT-5.2从25.2%提升至39.4%。地球科学领域的推理准确率从52.3%提升至69.5%。在多文档多跳问答任务中，它也胜过所有现有的九种方法。

这篇论文展示了，将论文进行“知识图谱化”这类看似基础的基建工作，能极大提升顶级模型的性能。它揭示了一个方向：优化输入知识的结构，比单纯扩大模型本身更有效。

@itarutomy: 一篇从头重建AI Agent研究"知识基础设施"的论文 (https://arxiv[.]org/html…

相似文章

知识代理：通过更好的结构超越前沿模型（18分钟阅读）

@_avichawla：为你的Agent构建类人记忆（开源）！每个智能体和RAG系统在实时知识方面都面临挑战……

@pauliusztin_: 我花了几个月优化GraphRAG检索。但结果发现我优化错了方向……最大的知识…

@omarsar0：关于AI代理如何重塑知识工作的新论文。这是一篇不错的关于代理实际改变知识工作的经济学文章。

@dair_ai: 关于自我改进智能体的优秀论文：

提交意见反馈