@jacobli99: 为了比较 Machine Studying 的流程,我们首先定义专业知识。语料库在测试时始终可用…

X AI KOLs Following 论文

摘要

Jacob Li 引入了 'Machine Studying' 作为持续学习中的一个新问题:AI系统如何仅凭文档语料库在不熟悉的领域发展专业知识,这与避免灾难性遗忘不同。

持续学习目前被广泛讨论,但主要是关于在职改进或避免灾难性遗忘。但它还有另一种不同的、困难的且已经紧迫的形式: 仅凭文档语料库,AI系统如何在一个新的、不熟悉的领域发展专业知识?我们称这个问题为 Machine Studying。
查看原文
查看缓存全文

缓存时间: 2026/06/18 12:07

当前,持续学习是一个广泛讨论的话题,但大多聚焦于在职提升或避免灾难性遗忘。然而,它还有另一种更棘手、且已迫在眉睫的形式:

若仅给出一堆文档,人工智能系统应如何发展出对某个全新、陌生领域的专长?我们将此问题称为 机器进修(Machine Studying)

人类不断面临学习新领域的问题,而我们的默认方法之一就是 学习

在考试前,即便是开卷考试,我们也会阅读教材或文献、大声思考、自测并写下自己的笔记。大部分专长正是源于阅读和思考本身的主动努力。

相比之下,当前的智能体大多在运行时依赖推理计算来理解文档库。我们希望人工智能系统能够仅凭某个主题下自然存在的文档库进行 学习,并且效率能与人类相当——比如人类主要通过阅读文档和几篇教程、再辅以少许实践来学习一个编程库。

为了比较不同类型的机器进修方法,我们首先需要定义什么是专长。

测试时文档库始终可用,因此一个足够聪明的非专长智能体原则上总可以在考试过程中临时学习。

区分专长与聪明新手的关键在于整个质量/成本曲线的位移:在相同预算下获得更高准确率,或在更小预算下达到相同准确率。我们将(适当加权的)面积称为“专长”,而学习的目标就是提升专长。

学习带来了第二条曲线:专长作为学习计算量的函数。你可以将其加权面积视为“智能”的一种度量。就我们的目的而言,一个智能体应能非常高效地获取全新领域的专长。(照此标准,即便当前最博学的智能体也未必很聪明!)

我们将这一理念实例化为 StudyBench——我们正在构建的基准测试,以便我们和其他人能开始探究智能体的学习能力。StudyBench 包含三个任务,每个任务基于一个定义领域专长的文档库,并配有一个隐藏的考试。下面是我们 DSPy 考试中的一个示例编程题和评分标准。

那么,智能体究竟该如何学习?我们测试了三种最直观的自然方案: (1) 自监督目标,例如对文档库进行持续预训练; (2) 合成自己的训练数据,例如将文档库转化为问答对进行微调; (3) 摊销上下文管理,例如让智能体为自己编写小抄。

我们的初步发现是,目前这些方法均无法可靠地将对文档库的接触转化为我们期望的专长水平。无论是记忆文档库内容还是具备检索能力,都无法替代更深层的专长。

请阅读博客,了解所有三种范式的详情,以及我们认为如何才能做得更好的思路!

相似文章