@jacobli99: 为了比较 Machine Studying 的流程,我们首先定义专业知识。语料库在测试时始终可用…
摘要
Jacob Li 引入了 'Machine Studying' 作为持续学习中的一个新问题:AI系统如何仅凭文档语料库在不熟悉的领域发展专业知识,这与避免灾难性遗忘不同。
查看缓存全文
缓存时间: 2026/06/18 12:07
当前,持续学习是一个广泛讨论的话题,但大多聚焦于在职提升或避免灾难性遗忘。然而,它还有另一种更棘手、且已迫在眉睫的形式:
若仅给出一堆文档,人工智能系统应如何发展出对某个全新、陌生领域的专长?我们将此问题称为 机器进修(Machine Studying)。
人类不断面临学习新领域的问题,而我们的默认方法之一就是 学习。
在考试前,即便是开卷考试,我们也会阅读教材或文献、大声思考、自测并写下自己的笔记。大部分专长正是源于阅读和思考本身的主动努力。
相比之下,当前的智能体大多在运行时依赖推理计算来理解文档库。我们希望人工智能系统能够仅凭某个主题下自然存在的文档库进行 学习,并且效率能与人类相当——比如人类主要通过阅读文档和几篇教程、再辅以少许实践来学习一个编程库。
为了比较不同类型的机器进修方法,我们首先需要定义什么是专长。
测试时文档库始终可用,因此一个足够聪明的非专长智能体原则上总可以在考试过程中临时学习。
区分专长与聪明新手的关键在于整个质量/成本曲线的位移:在相同预算下获得更高准确率,或在更小预算下达到相同准确率。我们将(适当加权的)面积称为“专长”,而学习的目标就是提升专长。
学习带来了第二条曲线:专长作为学习计算量的函数。你可以将其加权面积视为“智能”的一种度量。就我们的目的而言,一个智能体应能非常高效地获取全新领域的专长。(照此标准,即便当前最博学的智能体也未必很聪明!)
我们将这一理念实例化为 StudyBench——我们正在构建的基准测试,以便我们和其他人能开始探究智能体的学习能力。StudyBench 包含三个任务,每个任务基于一个定义领域专长的文档库,并配有一个隐藏的考试。下面是我们 DSPy 考试中的一个示例编程题和评分标准。
那么,智能体究竟该如何学习?我们测试了三种最直观的自然方案: (1) 自监督目标,例如对文档库进行持续预训练; (2) 合成自己的训练数据,例如将文档库转化为问答对进行微调; (3) 摊销上下文管理,例如让智能体为自己编写小抄。
我们的初步发现是,目前这些方法均无法可靠地将对文档库的接触转化为我们期望的专长水平。无论是记忆文档库内容还是具备检索能力,都无法替代更深层的专长。
请阅读博客,了解所有三种范式的详情,以及我们认为如何才能做得更好的思路!
相似文章
@jacobli99: 持续学习目前被广泛讨论,但大多是关于在职提升或避免灾难性遗忘…
Jacob Li介绍了'Machine Studying'这一概念,将其视为一种独特且紧迫的持续学习形式,其中AI系统必须仅凭文档语料库在一个新领域发展专业知识。
@jacobli99: 如果我们想要构建能够像专家一样在新领域操作的机器,要么我们必须将每个领域简化到足够可验证的环境,要么我们必须开发能够自主学习以获得专业知识的机器。
Jacob X. Li 讨论了人工智能系统需要从文档库中自主发展专业知识的需求,并将此视为一种具有挑战性的持续学习形式。
@lateinteraction: 把链接放在这里,给那些想直接看长文的人:https://jacobxli.com/blog/2026/machine-stud…
介绍“Machine Studying”作为一个问题,AI代理必须从语料库中自主发展专业知识,超越RAG或长上下文,并提出了StudyBench基准进行评估。
@jacobli99: 学习给我们带来第二条曲线:专业知识作为学习计算的函数。你可以考虑其加权面积为一种注……
引入了“Machine Studying”概念,即从文档语料库中发展专业知识的问题,与持续学习不同。
@DSPyOSS: “从某种意义上说,机器学习探讨的是当拥有明确的优化目标时,系统如何从数据中提升。机器学…
一条由@DSPyOSS和Jacob X. Li发布的推文,对比了机器学习(基于明确目标从数据中优化)与“机器研学”(从无下游任务的声明式语料库中学习),强调了AI系统迫切需要从非结构化文档中发展专业知识。