数据驱动系统何时展现推理能力?
摘要
本文开发了一个框架,用于评估欧洲AI法案下数据驱动系统的推理能力,以信用评分为案例,说明推理发生的位置以及哪些方面需要更清晰的监管规定。
arXiv:2606.11769v1 Announce Type: new
摘要:欧洲AI法案是第一部全面监管人工智能(AI)的法规,规定了广泛的义务,特别是针对所谓高风险和通用AI系统。AI法案中AI系统的一个关键特征是推理能力。由于AI法案没有明确定义什么是推理,某些数据驱动系统存在灰色地带。一个具体例子是信用评分系统,这些系统被列在AI法案附件III中。然而,这些系统通常使用统计模型实现,因此不清楚它们是否具有推理能力,从而是否完全属于AI法案的AI定义范围。
受统计学习理论的启发,本文开发了一个框架,用于评估推理能力的不同等级。基于AI法案和委员会关于人工智能系统定义的指南,我们分析了哪些等级构成AI法案意义上的足够推理能力,以及哪些方面需要进一步明确监管。我们通过创建两个现实的信用评分工作流来展示该框架,并说明推理是否以及在哪里发生。我们的分析表明,不仅需要关注单个模型,还必须考虑整个数据处理工作流。它还表明,开发过程中人类专家的参与可能对推理能力产生重大影响。代码可在 https://github.com/fraunhofer-iais/inference-framework-creditscorecards 获取。
查看缓存全文
缓存时间: 2026/06/11 13:48
# 数据驱动系统何时具备推理能力? 来源:https://arxiv.org/html/2606.11769 Maximilian Poretschkin Fraunhofer智能分析与信息系统研究所 (IAIS) 波恩大学 Lamarr机器学习与人工智能研究所 德国圣奥古斯丁、波恩 [email protected] (mailto:[email protected]) Tabea Naeven Fraunhofer智能分析与信息系统研究所 (IAIS) 德国圣奥古斯丁 [email protected] (mailto:[email protected]) ###### 摘要。 《欧洲人工智能法案》是首部全面监管人工智能(AI)的法规,尤其对所谓的高风险与通用人工智能系统规定了广泛的义务。根据该法案,AI系统的关键区分特征在于其推理能力。由于AI法案并未明确定义何为推理,某些数据驱动系统因此处于灰色地带。一个具体例子是信用评分系统,它被列入AI法案附件三。然而,这些系统通常采用统计模型实现,而对于这些模型是否具备推理能力,从而是否属于AI法案的AI定义范畴,尚不明确。受统计学习理论的启发,本文开发了一个用于分级不同级别推理能力的框架。基于AI法案及委员会关于人工智能系统定义的指南,我们分析了哪些级别构成AI法案意义上的足够推理能力,以及哪些方面需要进一步的监管澄清。我们通过创建两个现实的信用评分工作流来展示该框架,并说明推理是否以及在哪里发生。我们的分析表明,不仅需要考虑单个模型,还必须考虑整个数据处理工作流。同时,它揭示了在开发过程中人类专家的参与可能对推理能力产生重大影响。代码可在 https://github.com/fraunhofer-iais/inference-framework-credit-scorecards 获取。 AI监管,AI法案,AI定义,推理,信用评分 ††ccs:社会与专业主题 政府法规 | 月收入 | 30-59天逾期次数 | |--------|----------------| | 数值 | 点数 | | 缺失值 | 208 | | [0, 3000] | -41 | | (3000, 5000] | -3 | | (5000, 7000] | 0 | | (7000, 10000] | 3 | | ≥10000 | 5 | | 数值 | 点数 | |--------|----------------| | -1 | 13 | | ≥2 | -29 | 像这样的评分卡可能对客户产生巨大影响。它们是否属于《欧洲人工智能法案》所定义的人工智能的结果? ## 1. 引言 《欧洲人工智能法案》是首部生效的全面人工智能法律框架,尤其对高风险系统施加了严格的监管要求(European Commission, 2021 (https://arxiv.org/html/2606.11769#bib.bib16))。因此,什么构成人工智能系统这一问题对于该法律框架的范围至关重要。AI法案选择了一种技术中立的定义,该定义紧跟国际准备工作,尤其是OECD的工作(OECD, 2024 (https://arxiv.org/html/2606.11769#bib.bib18)),并将推理能力作为AI系统的关键区分特征。AI系统的推理指的是“从接收的输入中,为显式或隐式目标推导出如何生成输出(如预测、推荐或决策)的能力”。然而,尽管其监管重要性,推理概念仍然不够明确,特别是对于依赖经典统计模型而非现代机器学习架构的系统。这类统计模型的重要例子包括线性回归和logistic regression模型。在实践中,这种差异在信用评分工作流中尤为明显:AI法案附件三列出了信用评分。这意味着信用评分系统被AI法案归类为高风险系统,前提是满足第6条所概述的标准。然而,它们的实现通常基于(部分)自动化的分箱程序和logistic regression模型。在欧洲委员会关于AI定义的咨询过程中(European Commission, 2024 (https://arxiv.org/html/2606.11769#bib.bib9)),行业代表多次对logistic regression模型是否应被视为AI系统表示怀疑(Association of Consumer Credit Information Suppliers, 2024 (https://arxiv.org/html/2606.11769#bib.bib10))。尽管欧洲委员会在2025年初发布了(法律上非约束性的)指南,进一步澄清了AI的定义(European Commission, 2025 (https://arxiv.org/html/2606.11769#bib.bib17)),但行业从业者和监管机构对于logistic regression是否属于AI法案意义上的AI仍存在不确定性(Singh et al., 2025 (https://arxiv.org/html/2606.11769#bib.bib28))。这种模糊性在AI法案的历史中也很明显:AI法案的初稿(European Commission, 2021 (https://arxiv.org/html/2606.11769#bib.bib16))添加了一个附件来定义AI,列出了被视为AI的具体方法。除了机器学习,还提到了通用统计程序和优化方法。这种方法主要受到批评,因为它也会涵盖许多传统软件程序。在欧洲理事会的一份妥协草案中(Council of the European Union, 2024 (https://arxiv.org/html/2606.11769#bib.bib20)),该附件被移除,替换为两个涉及机器学习和基于逻辑与知识方法的序言段落,其中将logistic regression列为一种机器学习技术。AI法案的最终版本采用了上述技术中立的定义。 本文通过两个步骤来解决这种监管和概念上的模糊性:首先,我们开发了一个用于分级不同级别推理能力的框架。基于AI法案及委员会关于人工智能系统定义的指南,我们分析了哪些级别构成AI法案意义上的足够推理能力,以及哪些方面需要进一步的监管澄清。我们通过创建两个现实的信用评分工作流来展示该框架,并分析推理在工作流中发生的位置和程度。我们的分析表明,不仅需要考虑单个模型,还必须考虑整个数据处理工作流,并揭示了在开发过程中人类专家的参与可能对推理能力产生重大影响。 ## 2. 相关工作 #### AI法案的AI定义: 关于定义的讨论主要从其起源以及从法律上正式界定监管对象的问题的角度进行。(Schuett, 2023 (https://arxiv.org/html/2606.11769#bib.bib30))认为,总体而言,AI监管不应依赖于AI的定义,因为大多数现有的AI定义不符合法律定义的要求。(Ebers et al., 2021 (https://arxiv.org/html/2606.11769#bib.bib29))和(Veale and Zuiderveen Borgesius, 2021 (https://arxiv.org/html/2606.11769#bib.bib22))分析了欧洲委员会关于AI法案的首项提案,指出其中的定义过于宽泛。(Finocchiaro, 2024 (https://arxiv.org/html/2606.11769#bib.bib46))认为,在AI法案中包含AI技术列表可能会排除未来的技术发展,而(Ellul, 2022 (https://arxiv.org/html/2606.11769#bib.bib47))则质疑以足够快的速度更新该列表的可行性。(Castán, 2024 (https://arxiv.org/html/2606.11769#bib.bib21))、(Presno Linera and Meuwese, 2025 (https://arxiv.org/html/2606.11769#bib.bib40))和(Fernández-Llorca et al., 2025 (https://arxiv.org/html/2606.11769#bib.bib12))描述了AI法案谈判过程中定义是如何形成的。后者还从跨学科角度分析了AI系统、生成式AI等术语。(Floridi, 2023 (https://arxiv.org/html/2606.11769#bib.bib3))追溯了AI法案AI定义的发展,并考察了它与美国行政命令定义的兼容程度。(Hacker, 2024 (https://arxiv.org/html/2606.11769#bib.bib11))评论了AI法案的最终三方版本,指出推理是区分AI系统与基于经典软件构建的系统的唯一特征。 #### AI法案下的信用评分: 信用评分通过AI法案的监管已从不同角度进行了研究:(Spindler, 2023 (https://arxiv.org/html/2606.11769#bib.bib32))和(Montagnani et al., 2024 (https://arxiv.org/html/2606.11769#bib.bib33))分析了(初稿版本的)AI法案对信用评分的影响,同时考虑了现有的银行监管及其与拟议AI法案的重叠。(Hacker and Eber, 2025 (https://arxiv.org/html/2606.11769#bib.bib24))考察了信用评分在承保背景下的监管以及保险业的监管格局。其他工作研究了高风险AI系统在单个可信度维度的法律要求:(Pavlidis, 2024 (https://arxiv.org/html/2606.11769#bib.bib34))研究了AI法案对可解释性的要求。(Buttaboni and Floridi, 2026 (https://arxiv.org/html/2606.11769#bib.bib41))提出了一个监管分类法,将透明度、可追溯性、可解释性和可说明性区分为AI不透明性的分层且相互依赖的维度,并以信用评分为例进行了说明。 #### 推理的不同阶段: 在(Breiman, 2001 (https://arxiv.org/html/2606.11769#bib.bib27))中,Breiman 强调了从参数估计到数据驱动构建决策逻辑的质变。决策树学习从数据中显式构建输入-输出映射(Quinlan, 1986 (https://arxiv.org/html/2606.11769#bib.bib1); Breiman et al., 1984 (https://arxiv.org/html/2606.11769#bib.bib39)),而基于实例的方法和核方法则通过数据诱导的相似性几何而非显式规则来实现推理(Cover and Hart, 1967 (https://arxiv.org/html/2606.11769#bib.bib35); Boser et al., 1992 (https://arxiv.org/html/2606.11769#bib.bib36))。表示学习将这种依赖性扩展到特征空间本身,联合学习表示与决策函数(Bengio et al., 2013 (https://arxiv.org/html/2606.11769#bib.bib38); Goodfellow et al., 2013 (https://arxiv.org/html/2606.11769#bib.bib37))。虽然关于AI法案、信用评分以及统计学习背景下不同推理特性的研究很多,但据我们所知,还没有工作从更详细的技术层面分析AI法案的推理概念。 ## 3. 推理术语分析 一般来说,推理指的是“从已知或假定的事实或陈述中得出结论的过程”(Oxford English Dictionary, 2025 (https://arxiv.org/html/2606.11769#bib.bib42))。统计推理描述了基于来自该总体的样本数据\(^1\) 得出关于总体的结论的过程\(^1\) 这里的总体指对某个待研究问题感兴趣的一组相似物品或事件。(Casella and Berger, 2002 (https://arxiv.org/html/2606.11769#bib.bib43))。在机器学习中,推理指的是将训练好的模型应用于新数据点。由于AI法案是一个法律文本,必须严格解释推理一词的含义。同时,这个术语的法律解释需要通过计算机科学来操作化。 AI法案第3条将AI系统定义为“一个基于机器的系统,旨在以不同程度的自主性运行,并且可能在部署后表现出适应性,并且为了显式或隐式的目标,从它接收的输入中推理出如何生成输出,例如预测、内容、推荐或决策,这些输出可以影响物理或虚拟环境。”正如Hacker(Hacker, 2024 (https://arxiv.org/html/2606.11769#bib.bib11))所强调的,推理能力是决定性的区分特征,因为定义中的其余要素也可能由传统软件满足。第12条序言澄清:“推理能力指的是获得输出的过程,例如预测、内容、推荐或决策,这些输出可以影响物理和虚拟环境,并且指的是AI系统从输入或数据中推导出模型或算法(或两者)的能力。”它强调,实现推理的技术包括从数据中学习如何实现特定目标的机器学习方法,而完全依赖人工制定的规则或仅执行简单数据处理的系统则被排除在外。委员会关于AI系统定义的法律上非约束性的指南进一步明确指出,这种推导主要涉及系统的开发阶段,但并不排除运行阶段(European Commission, 2025 (https://arxiv.org/html/2606.11769#bib.bib17))。 综合来看,第3条和第12条序言将推理确立为一个结构性标准,而非纯粹的功能性标准。当生成预测、内容、推荐或决策的输入-输出映射的形式至少部分由数据塑造,而非完全由人类开发者事先指定时,该系统就具备了推理能力。然而,AI法案并未规定这种数据驱动的决定程度需要多强,从而留下了一个问题:推理能力的阈值究竟该划在哪里。为了系统化这个问题并将其与AI法案所暗示的阈值联系起来,我们开发了一个框架\(^2\) 我们的框架适用于学习系统,即它不涉及AI法案第12条序言中提到的“基于逻辑和知识的方法”。该框架区分了数据参与塑造输入-输出映射的不同级别。 作为一个概念起点,我们借鉴了统计学习理论中学习问题的形式化抽象(Mitchell, 1997 (https://arxiv.org/html/2606.11769#bib.bib44))。在监督学习中,一个学习问题由输入空间 \(X \subseteq \mathbb{R}^n\)、输出空间 \(Y\) 以及一个通常不可直接观察的机制(该机制将输出分配给输入)来表征。假设输入 \(x \in X\) 是独立地从 \(X\) 上的一个基础概率分布中抽取的,并且每个观察到的输出 \(y \in Y\) 反映了这个不可观察机制对相应输入的响应。输入向量 \(x \in X\) 的分量是称为特征的单个可测量输入变量。一个学习系统观察到一个有限数据集 \(D = \{(x_i, y_i)\}_{i=0}^m\),并旨在构建一个函数 \(h: X \rightarrow Y\),即从输入到输出的映射,该映射能够推广到观察样本 \(D\) 之外。学习系统允许选择的所有此类函数的空间称为假设空间\(^3\) 所谓的VC维(Vapnik and Chervonenkis, 1971 (https://arxiv.org/html/2606.11769#bib.bib45))提供了衡量这个假设空间“大小”的度量。假设空间“越大”,相关系统的学习选项就越多;换句话说,其推理能力就越强。然而,由于计算VC维可能相当复杂,出于实际原因我们决定不在下面开发的框架中包含它。。
相似文章
AI推理遵循着截然不同的规则(9分钟阅读)
文章指出AI推理对云数据基础设施提出了独特挑战,其需求更接近高并发OLTP系统,而非传统面向人类速度的应用。文章强调需要优化存储和数据访问层,以应对自主智能体驱动的"AI数据海啸"。
改进的幻象:信用评分中的拒绝推断策略
本文系统评估了信用评分中的拒绝推断方法,并发现了一种结构性失效模式:在自然的再训练周期中,模型的准确率提升但召回率骤降,造成了改进的幻象,而实际拒绝质量却在恶化。本文提出了一种受控探索策略,无需统计假设即可打破反馈循环,并证明即使最低的探索率也足以诊断该问题。
AI推理工程指南(阅读时间约17分钟)
本指南解释了AI推理工程这一学科,涵盖了预填充和解码阶段的划分、从封闭模型到开放模型的转变,以及针对延迟、吞吐量和成本的优化技术。
具有随时有效保证的 AI 系统自适应审计
本文引入了一种统计框架,利用安全随时有效推断(SAVI)技术对 AI 系统进行自适应审计,旨在基于有限数据得出严谨的结论。文章提出了一种“通过赌博进行测试”的方法,以验证模型的鲁棒性,同时在自适应采样过程中控制第一类错误。
# 数字学徒:人类主导的智能体AI开发框架
本文介绍了"数字学徒"(Digital Apprentice)框架——一个可扩展且安全的智能体 AI 体系,其中自主权通过观察学习、人工授权和持续对齐校正的方式逐步获得。本文还介绍了 ADAPT,一种推理时控制平面,用于将渐进式自主权等级付诸实践,并将人工校正转化为可复用的偏好数据。