@IntuitMachine: https://x.com/IntuitMachine/status/2058141021842571510

X AI KOLs Timeline 新闻

摘要

本文认为,在生产AI中,评估是最难的问题,而非生成,并将AI的自我知识分解为校准、判别和表达,这对系统设计具有启示意义。

https://t.co/ezsY6DTQ9h
查看原文
查看缓存全文

缓存时间: 2026/05/24 04:21

为什么评估是瓶颈:对生产AI中人类判断的结构性阐释

从业者中日益形成的共识是,生产AI中最困难的问题不是生成,而是评估。前沿模型可以生成复杂的代码、架构方案、法律分析和医学摘要。但它们无法可靠地告诉你哪些输出是错误的——更准确地说,哪些错误在它们所嵌入的具体系统中是关键性的。本文认为,这并非一个可以通过规模化消除的暂时限制,而是能力源与其运行环境之间关系的一个结构属性。它直接影响组织应如何设计AI系统、劳动力市场将如何演变,以及为什么领域专业知识正变得更加有价值,而非更少。

论证基于QPT 4.16的元认知验证框架,该框架是一套包裹能力源的中介架构的形式化规范。QPT提供了从业者已经感受到但难以清晰表达的区分——这些区分对系统设计而言是承重性的。

标量错觉

关于AI系统自我认知的最简单思考方式是将其视为一个单一数字:它在多大程度上知道自己何时正确?这直观但具有误导性。QPT 4.16将此能力分解为三个结构上独立的组成部分,这种分解之所以重要,是因为每个组成部分都有不同的测量方法、不同的实证特征和不同的设计含义。

第一个组成部分是校准——模型在各输出群体中的总体置信度信号与其实际准确度的匹配程度。当模型对某类响应赋予80%的置信度时,大约有80%是正确吗?当前的前沿模型在这方面表现尚可。它们的平均置信度具有统计信息价值。

第二个是区分——模型在个体实例层面将其正确输出与错误输出分开的能力。这是一个根本不同的问题。模型可能知道自己在某类问题上20%的时间是错的(良好校准),但无法告诉你哪些具体答案属于那20%(较差区分)。实证证据明确:当前前沿模型的区分能力充其量是中等水平。它们可以将输出粗略地分类到置信度桶中,但这些桶是有漏洞的。通过选择性弃权(阻止低置信度输出)来降低错误率需要付出沉重的效用代价。在当前区分水平下,要将错误率从25%降到5%,需要丢弃大约一半的有效输出。

第三个是表达——模型的语言输出忠实反映其内部不确定性的程度。当模型说“我不确定”时,它真的不确定吗?当它自信地陈述某事时,其内部状态是否匹配?当前模型在这方面明显较差。它们系统性地过度表达自信,远超实际的内部状态。语言中的缓冲模式与它们实际可能出错的概率弱相关。

这三个组成部分是独立的。模型可能在总体上校准良好,却无法标记具体错误。它可能拥有有用的内部不确定性信号,却无法通过语言展现出来。它可能忠实地报告其不确定性,但其不确定性信号实际上并不能区分正确与错误。每种组合都需要包裹模型的系统做出不同的架构响应。

作为中介架构的套件

QPT使用“套件”一词来指代包裹能力源的系统——构建其输入、解释其输出、验证其主张并管理交互中的状态。这不是一个薄薄的API层。它是一个具有自身循环、自身质量感知以及随时间自身演化的中介架构。套件根据任务和先前状态构建上下文,调用模型,从输出中提取质量信号,应用验证,然后对结果进行通过、注释、修订、阻止或升级。

关键洞察在于,套件是人类判断进入系统之处,它不是作为否决门,而是作为一个结构性组件,提供模型所缺乏的能力。这重新框定了常见的“AI会取代人类吗?”问题,使之更为精确:人类在套件中执行哪些结构性功能,这些功能能否被自动化?

两种质量感知

QPT 4.16在两种具有根本不同可行性特征的质量感知模式之间划出了一条清晰的界限。

内部质量感知检查模型是否自洽。当以多种方式问同样的问题时,它给出相同的答案吗?其置信度信号在扰动下是否稳定?其语言缓冲模式是否与其采样行为匹配?这是一个闭环操作。套件始终可以执行它,因为它只需要访问模型的输出,而套件本身就能获得这些输出。对于任何具有随机生成的模型,这在计算上都是可行的。

外部质量感知检查模型的输出是否对应于因果关系中的现实。法律分析是否与当前判例法一致?架构方案在实际系统将要承受的生产负载下是否真的有效?医疗建议能否为这位特定患者带来预期结果?这是一个开环操作。它需要独立访问真实情况——这种访问可能存在也可能不存在,并且通常是领域本身的核心挑战。

这两种模式之间的不对称是结构性的,而非实现性的。内部感知总是可用的。外部感知则取决于手头任务是否能访问真实情况,是有条件可用的。一个生成内部一致但微妙错误软件架构的模型,将通过所有内部一致性检查。只有那些了解实际生产环境——流量模式、监管约束、客户行为——的人才能捕捉到错误。

这种不对称使领域专业知识变得有价值。领域专家对系统做出的贡献不是生成输出(模型做得更快且往往更好),而是提供外部质量感知——针对现实的一致性检查,而模型结构上无法自行执行。

中等区间

一个自然的问题是,这些限制是否只是暂时的——规模化、更好的训练或更复杂的架构是否会最终弥合差距。QPT 4.16认为答案是微妙的,取决于你指的是哪个差距。

对于在给定任务分布上运行的任何架构类别,都存在一个不可避免的误差下限——无论规模、数据或训练策略如何,该架构的任何模型都无法超越的最小误差率。此下限源于信息论限制(其真值无法从训练分布中推断出来的事实)、架构限制(自回归生成无法在无外部工具的情况下在生成过程中验证自身声明)以及分布特性(训练信号稀疏的长尾事实具有固有更高的误差率,随规模增加而趋于平稳,而非收敛于零)。

实际后果是,验证工作的回报递减。超过某一点后,通过相同验证架构努力捕捉错误将不再带来改进,因为错误是结构性的,而非偶然的。适当的响应不是更多验证,而是结构性转变:要么将剩余不确定性传递给下游消费者(而非试图消除它),要么切换为具有不同误差下限的不同架构类别(例如,对事实性任务采用检索增强生成),要么通过外部工具和人类专业知识将系统接地,从而改变有效的架构类别。

这就是中等区间——模型自我认知既非零也不充分的结构性条件。这不是一个过渡阶段。它是所有当前前沿模型在所有领域中的运作状态。它要求一种既非二元通过或阻止也非不加批判通过的验证方法。它要求注释——将系统的不确定性展示给下游消费者,以便他们能够就依赖程度做出明智决策。

为什么生产系统很难

有了这些词汇,我们可以从结构上解释为什么生产AI系统难以构建,以及为什么大规模自主软件工程仍然难以实现。

生产系统需要在架构、基础设施、安全、可观测性、扩展、用户体验、数据建模和评估循环之间做出数百个相互关联的决策。每个决策都是一个领域,前沿模型可能超越任何个体人类专家。但这些决策是耦合的——安全选择约束架构选择,架构选择约束扩展选择——并且任何单个决策的质量取决于它与整个系统的一致性。

这种耦合意味着协调套件不能简单地将决策路由到独立的专家模型并合并结果。它必须协调这些决策,这需要任何单个模型都不具备的跨领域质量感知。评估安全隐患的模型无法访问塑造设计的架构约束,反之亦然。跨领域一致性是一种外部质量感知形式——它需要访问完整系统将在生产环境中实际行为的真实情况,而这在任何单个组件中都是不可用的。

此架构中的人类不是要消除的瓶颈。人类是提供跨领域区分的组件——能够感知这一特定决策组合在实际运行环境中是否有效的能力。这是系统层面的外部质量感知,它需要那种只有运营过真实系统面对真实客户才能获得的综合领域专业知识。

领域优势

这一结构性分析解释了一个原本令人困惑的市场观察:尽管使用的模型日益商品化,但深深嵌入特定领域的AI公司似乎拥有持久优势。

优势不在模型。优势在套件中——具体而言,在于四个领域特定且难以复制的套件组件。

第一,接地接近性。嵌入领域的公司直接接触真实情况。他们能观察到自己的系统输出在部署的具体环境中是否真的有效。这是一般性提供商无法匹敌的外部质量感知。

第二,校准深度。通过持续运营,这些公司学习了模型在其特定任务分布上的失败特征。他们不仅知道模型会出错,而且知道在什么条件下以什么频率犯什么类型的错误。这种校准数据是专有的,并随时间积累。

第三,更紧密的演化循环。当生产结果暴露套件故障时,领域嵌入的公司可以回溯其验证架构,识别缺口并演化套件。从生产结果到套件改进的反馈循环对于直接观察到后果的公司来说更短且信息更丰富。

第四,对其领域实际模型自我知识特征的更好测量。他们拥有标记数据来计算其实际任务上的区分分数,而非依赖可能不具转移性的基准数字。

换句话说,竞争护城河不是模型,而是围绕模型的中介架构——校准的质量、接地的深度、验证的复杂程度以及演化循环的紧密性。模型正在商品化。套件正在成为差异化要素。

证明规则的编码例外

软件工程是模型获得最多强化学习、最多评估基础设施和最多迭代反馈的领域。这也是真实情况最容易获得的领域——代码编译或不编译,测试通过或不通过,基准测试产生数字。如果有哪个领域应该实现完全自主,那就是这里。

然而,全自主的生产级系统仍然在涌现中。跨耦合架构决策的软件工程误差下限远离零,因为架构选择的正确性取决于未来运行条件——负载模式、用户行为、监管变化、集成约束——这些都不在训练分布中。模型可以生成内部正确但对其实际运行环境而言架构错误的代码。内部质量感知捕捉语法错误和逻辑漏洞。只有外部质量感知——基于对实际生产环境的了解——才能捕捉架构不匹配。

如果在评估基础设施最佳的领域差距仍然存在,那么在其他领域差距会更大。法律、金融和医疗工作流程具有更低的区分能力(正确性取决于模型访问较少的领域特定真实情况)、更高的不可避免误差下限(训练分布对这些领域的覆盖较少)以及更少可访问的真实情况(法律正确性取决于特定管辖区的判例法,金融正确性取决于非公开信息,医疗正确性取决于患者特定背景)。在这些领域,模型能够生成的内容与可以自主验证的内容之间的距离更大,这意味着人类作为外部质量感知者的角色更为关键,而非更不重要。

能力的悖论

最深层的结构性洞察是,随着模型改进,这种动态会加剧。弱模型生成明显错误的输出——那些未通过内部一致性检查、任何审查者都能捕捉的输出。强模型生成微妙错误的输出——那些内部一致、自信表达,且错误只有在拥有深厚领域知识和真实情况访问权限的人才能检测到的输出。

随着生成能力规模化,需要评估的输出变得更难评估,而非更容易。审查负担不随模型能力而缩小;它会转化。审查者需要更多的专业知识,而非更少,因为错误更加复杂。内部质量感知捕捉得更少,因为输出更加内部一致。外部质量感知成为约束性的瓶颈,而外部质量感知需要领域专业知识和因果现实访问权限,这些不随模型规模化。

这解决了明显的悖论:更好的AI创造了对人类判断更多的需求。这种需求不是过去那种——不是那种包括捕捉明显错误或执行例行检查的评估。而是系统能力前沿的区分供应:判断一个复杂、内部一致、自信表达的输出是否在实际部署的具体情境中对应于现实的能力。

启示

从这一结构性分析出发,产生三个启示。

第一,中等区间的设计模式是展现不确定性而非压制它。当系统区分正确输出与错误输出的能力处于中等水平——这是当前且可能持续的状况——时,

相似文章

解密 AI Agent 的评测方法

Anthropic Engineering

Anthropic 发布了一份指南,介绍如何为 AI Agent 设计严谨的自动化评测方案,重点解决了多轮交互和状态修改带来的复杂性挑战。

构建AI代理时如何进行评估与可观测性?

Reddit r/AI_Agents

作者探讨了在生产环境中评估和监控AI代理所面临的挑战,包括离线评估与在线评估、LLM作为评判、链路追踪和成本追踪,并提到Langfuse、LangSmith等工具,但更关注底层流程。

AI系统常以测试中不显现的方式失败?

Reddit r/AI_Agents

讨论AI工作流中干净的基准测试环境与混乱的真实世界使用之间的常见差距,导致生产环境失败,并提及评估平台如Confident AI、Braintrust和Langfuse。

设计抗AI的技术评估方案

Anthropic Engineering

Anthropic工程师Tristan Hume探讨了为招聘性能工程师设计抗AI技术作业测试的挑战,并详细介绍了近期Claude模型如何开始超越人类候选人的表现。