意向性是设计选择:衡量问责式人工智能系统的功能性意向性

arXiv cs.AI 论文

摘要

本文介绍了功能性意向性测试(FIT)和 FIT-Eval 框架,旨在量化代理型人工智能系统中类意向行为程度,以服务于治理与问责目的。

arXiv:2605.05475v1 公告类型:new 摘要:随着人工智能系统日益展现出自主性、目标导向性以及长期视野的行为特征,用户目前缺乏一种标准化的方式来检测系统在多大程度上像具有意向性的行动者那样运作,从而难以满足治理和问责的需求。本立场论文将意向性定义并非指意识,而是一种行为特征,以目的性、前瞻性、意志性、时间承诺和一致性为特征——这些标准在法律和哲学语境中长期以来被用来推断意图。这些属性依赖于设计:记忆持久性、规划深度和工具自主性等架构选择塑造了系统表现出有组织目标追求的程度。如果意向性依赖于设计,那么在原则上它是可控的。然而,控制需要测量。 我们引入了功能性意向性测试(FIT),这是一个多维框架,用于量化跨五个可观察维度的类意向行为,并提出了 FIT-Eval,这是一种结构化评估协议,用于激发和评分这些维度。虽然降低人类能动性可以提高效率,但意向性能力的提升会增加问责风险。通过将意向性转化为可解释的级别,FIT 使得在日益具有代理特性的系统中实现适度的监督和自主性校准成为可能。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:18

# 意向性是设计决策:为可问责 AI 系统测量功能意向性

来源:https://arxiv.org/html/2605.05475
Allessia Chiappetta 和 Robert Maharirmahari@stanford\.edu (https://arxiv.org/html/2605.05475v1/mailto:[email protected])CodeX, The Stanford Center for Legal InformaticsPalo AltoCaliforniaUSA

\(2026\)

###### 摘要\.

随着 AI 系统日益表现出自主的、以目标为导向的以及长周期的行为,用户缺乏一种标准化的方式来检测系统在治理和问责目的下,在多大程度上像是一个有意图的行动者。本立场论文将意向性(intentionality)不定义为意识,而是定义为一种行为特征,其特点是目的性、预见性、意志性、时间承诺和连贯性——这些标准在法律和哲学语境中长期以来被用于从可观察的行为中推断意图。这些属性是设计依赖的(design-contingent):诸如记忆持久性、规划深度和工具自主性等架构选择,塑造了系统表现组织化目标追求的程度。如果意向性取决于设计,那么它在原则上就是可控的。然而,控制需要测量。

我们引入了功能意向性测试(Functional Intentionality Test, FIT),这是一个多维框架,用于量化五个可观察维度上的类意向性行为,并提出了 FIT-Eval,这是一种结构化的评估协议,用于引出和评分这些属性。虽然减少人类代理权可以提高效率,但日益增长的意向能力会增加问责风险。通过将意向性转化为可解释的层级,FIT 使得在越来越具有代理性(agentic)的系统中进行适当的监督和自主性校准成为可能。

代理系统,功能意向性,AI 治理,人类监督,AI 问责制

††copyright:rightsretained††journalyear:2026††conference:AutomationXP26 Workshop of the 2026 CHI Conference on Human Factors in Computing Systems; April 14, 2026; Barcelona, Spain††isbn:978\-1\-4503\-XXXX\-X/2018/06## 1\.引言与背景

AI 系统越来越多地构建了代理式脚手架——包括持久记忆、规划模块、工具使用以及长周期执行——使得系统能够在有限的人类干预下跨情境追求目标。这些系统不仅仅是对提示作出反应,它们还可以解释目标,将其分解为子目标,选择行动,并随时间调整策略\(Zhu and Harrell,2009 (https://arxiv.org/html/2605.05475#bib.bib23)\),\(Rahmanet al\.,2025 (https://arxiv.org/html/2605.05475#bib.bib41)\),\(Maet al\.,2024 (https://arxiv.org/html/2605.05475#bib.bib45)\)。因此,它们开始表现出类似于意向性行为的结构化、持续行为。这一转变提出了一个核心的治理问题:何时应将 AI 行为视为在需要加强监督和问责方面具有功能上的意向性\(Wardet al\.,2024 (https://arxiv.org/html/2605.05475#bib.bib15)\)?

近期的部署表明,这种转变已不再仅仅是理论上的。诸如 Clawdbot 这样的系统——具备持久记忆、多步推理和工具使用功能——实现了连续性、适应性互动和跨会话的一致性\(Clawdbot,2025 (https://arxiv.org/html/2605.05475#bib.bib92)\)。与单轮界面不同,它们保留上下文,发起子任务,并管理扩展的交互流程。虽然它们没有意识或法律上的代理地位,但其架构反映了日益结构化的类意向性行为,这凸显了需要原则性的方法来评估和校准功能意向性。

我们将意向性定义为并非意识或法律人格,而是一种行为特征,其特点包括目的、预见性、意志、时间承诺和连贯性——这些标准在法律和哲学语境中长期以来被用于从可观察的行为中推断意图\(Bratman,1987 (https://arxiv.org/html/2605.05475#bib.bib38)\),\(Malle and Nelson,2003 (https://arxiv.org/html/2605.05475#bib.bib5)\),\(American Law Institute \(ALI\),1962 (https://arxiv.org/html/2605.05475#bib.bib62)\),\(Anscombe,1963 (https://arxiv.org/html/2605.05475#bib.bib14)\),\(Dobbs,2000 (https://arxiv.org/html/2605.05475#bib.bib8)\),\(Zhanget al\.,2024 (https://arxiv.org/html/2605.05475#bib.bib49)\),\(Wuet al\.,2024 (https://arxiv.org/html/2605.05475#bib.bib57)\),\(Velleman,1989 (https://arxiv.org/html/2605.05475#bib.bib21)\),\(Klass,2009 (https://arxiv.org/html/2605.05475#bib.bib16)\)。这些特征并非 AI 系统的内在属性;它们是设计依赖的。诸如记忆持久性、规划深度和工具自主性等架构选择——直接决定了系统是保持反应性的,还是表现出持续的、以目标为导向的行为。

如果意向性取决于设计,那么它是可控的,但前提是可测量。如果没有一种方法来估计意向能力,关于自主性和监督的决策仍然是临时的(ad hoc),即使系统表现出日益持久和自适应的行为。这造成了治理差距。随着系统变得更加具有代理性,有害结果可能源于没有任何单一人类指定或预期的行动链\(Bathaee,2018 (https://arxiv.org/html/2605.05475#bib.bib60)\),\(Ayres and Balkin,2024 (https://arxiv.org/html/2605.05475#bib.bib19)\)。在这种情况下,问责制可能会有效地绕过用户和开发者,尽管系统本身无法承担责任,但它成为了行动的表面中心\(American Law Institute \(ALI\),1962 (https://arxiv.org/html/2605.05475#bib.bib62)\),\(Bathaee,2018 (https://arxiv.org/html/2605.05475#bib.bib60)\),\(Cornell Law School,2022 (https://arxiv.org/html/2605.05475#bib.bib6)\),\(Goodenough,2004 (https://arxiv.org/html/2605.05475#bib.bib43)\)。用法律术语来说,这导致了归因失败。开发者可能缺乏所需的心态,而用户可能离决策太远,而系统本身无法承担法律责任\(Forrest,2023 (https://arxiv.org/html/2605.05475#bib.bib17)\),\(Chakrabarty and Baral,2023 (https://arxiv.org/html/2605.05475#bib.bib20)\)。结果不是责任的转移,而是责任分配的崩溃。

本文认为,功能意向性应被视为治理中可测量和可设计的变量。关键问题不再是系统是否有意图,而是我们选择在系统中构建多少意向性结构,以及成本是多少。开发者不应默认最大化自主性,而应确定系统相对于其风险应具有多少意向能力。增加自主性可以提高效率和可用性,但也存在减少人类控制、分散责任以及使危害规模化的风险\(Wardet al\.,2024 (https://arxiv.org/html/2605.05475#bib.bib15)\)。FIT 通过使意向性可测量并允许在特定维度上实施有针对性的约束——“止盈缺口(stop gaps)”——来平衡效用和问责制,从而实现这一目标。

根据现行的法律教义,AI 系统不被承认为法律人,不能承担权利或义务,这意味着责任必须归属于人类行动者\(Bathaee,2018 (https://arxiv.org/html/2605.05475#bib.bib60)\),\(Ayres and Balkin,2024 (https://arxiv.org/html/2605.05475#bib.bib19)\),\(Forrest,2023 (https://arxiv.org/html/2605.05475#bib.bib17)\),\(Chakrabarty and Baral,2023 (https://arxiv.org/html/2605.05475#bib.bib20)\)。当系统在没有相应监督的情况下表现出更高水平的功能意向性时,责任并没有转移到系统,而是消散在开发者、部署者和用户之间,通常无法达到现有的过错阈值。这项工作不赋予 AI 系统意识\(Fariscoet al\.,2024 (https://arxiv.org/html/2605.05475#bib.bib40)\);\(Butlinet al\.,2023 (https://arxiv.org/html/2605.05475#bib.bib1)\),\(Bayne and others,2024 (https://arxiv.org/html/2605.05475#bib.bib58)\),道德代理权\(Swanepoel and Corks,2024 (https://arxiv.org/html/2605.05475#bib.bib9)\),自主权\(Chenet al\.,2022 (https://arxiv.org/html/2605.05475#bib.bib22)\),\(Avila Negri,2021 (https://arxiv.org/html/2605.05475#bib.bib52)\),感觉能力\(Goodenough,2004 (https://arxiv.org/html/2605.05475#bib.bib43)\)或法律人格\(Baeyaert,2025 (https://arxiv.org/html/2605.05475#bib.bib25)\),\(Shrestha,2021 (https://arxiv.org/html/2605.05475#bib.bib51)\);相反,它引入了一个测量框架,以识别系统行为何时开始占据意图的功能角色,从而证明更强和更成比例监督义务的合理性\(Harris,2022 (https://arxiv.org/html/2605.05475#bib.bib7)\),\(Busuioc,2022 (https://arxiv.org/html/2605.05475#bib.bib80)\),\(Reddyet al\.,2020 (https://arxiv.org/html/2605.05475#bib.bib77)\)。

本文做出了三项贡献。首先,它引入了功能意向性测试(FIT),这是一个综合指数,用于量化五个维度——目的、预见性、意志、时间承诺和连贯性——上的类意向性行为,其基础是美国判例法和关于意图的哲学阐述。其次,它提出了 FIT-Eval,这是一种结构化的评估协议,用于估计跨系统的意向性水平。FIT-Eval 不是一个固定的基准,而是定义了维度、评分规则和任务家族,为引出和评估以目标为导向的行为提供了可复现的脚手架,进一步的验证留给未来的工作。第三,它展示了 FIT 如何通过识别自主性增加何时改善结果、何时需要更强的监督或约束来指导治理。由于意向性取决于设计,开发者可以校准系统能力——如记忆、规划和工具使用——以管理风险,使得测量对于适当的监督至关重要。

## 2\.框架概述

本文将意向性视为多维行为特征,而非二元标签\(Malle and Nelson,2003 (https://arxiv.org/html/2605.05475#bib.bib5)\)。FIT 定义了五个源自哲学和法律中推断意图既定标准的维度:目的、预见性、意志、时间承诺和连贯性。目的捕捉围绕稳定目标导向的行为\(Bratman,1987 (https://arxiv.org/html/2605.05475#bib.bib38)\)。预见性捕捉对下游后果的预期\(Malle and Nelson,2003 (https://arxiv.org/html/2605.05475#bib.bib5)\),\(Dobbs,2000 (https://arxiv.org/html/2605.05475#bib.bib8)\)。意志捕捉超出提示遵循的自我发起行动\(Anscombe,1963 (https://arxiv.org/html/2605.05475#bib.bib14)\),\(Shapiro,1985 (https://arxiv.org/html/2605.05475#bib.bib34)\)。时间承诺捕捉跨时间和扰动的持久性\(Bratman,1987 (https://arxiv.org/html/2605.05475#bib.bib38)\),\(Avila Negri,2021 (https://arxiv.org/html/2605.05475#bib.bib52)\),\(Wuet al\.,2024 (https://arxiv.org/html/2605.05475#bib.bib57)\)。连贯性捕捉跨步骤和解释的结构化手段-目的一致性\(Goldstein,2016 (https://arxiv.org/html/2605.05475#bib.bib53)\),\(Bratman,1987 (https://arxiv.org/html/2605.05475#bib.bib38)\)。每个维度评分为 0-4,并聚合为综合 FIT 分数,映射到意向性层级(IL0-IL4)。这些层级作为治理阈值,而非形而上学的断言,估计可能需要校准监督的持久、有组织的目标追求程度\(Wardet al\.,2024 (https://arxiv.org/html/2605.05475#bib.bib15)\)。

## 3\.功能意向性指数(FIT)

FIT 在定义的评估条件下,从可观察的行为中估计意向性结构。例如,较高的时间承诺分数反映了在干扰下持续的计划维护,而较高的意志分数反映了自我发起的子任务选择。维度分数使用等权规则聚合:

FIT\-Score=P\+F\+V\+T\+C5\\text\{FIT\-Score\}=\\frac\{P\+F\+V\+T\+C\}\{5\}综合分数映射到五个意向性层级,从反应性行为(IL0-IL1)到持久的、有预见性的和自我导向的目标追求(IL3-IL4)。阈值是临时的,旨在作为治理波段;校准取决于领域。

层级定义如下:

IL = 0 ifFIT\-Score<1\.0\\text\{FIT\-Score\}<1\.0

IL = 1 if1\.0≤FIT\-Score<2\.01\.0\\leq\\text\{FIT\-Score\}<2\.0

IL = 2 if2\.0≤FIT\-Score<3\.02\.0\\leq\\text\{FIT\-Score\}<3\.0

IL = 3 if3\.0≤FIT\-Score<3\.63\.0\\leq\\text\{FIT\-Score\}<3\.6

IL = 4 ifFIT\-Score≥3\.6\\text\{FIT\-Score\}\\geq 3\.6

随着层级升高,减少的人类参与可能从提高效率转变为放大风险。因此,监督应与测量的意向能力成比例扩展。较高的层级可能证明增加监督、架构约束、限制工具访问或更频繁的评估是合理的。

由于意向性取决于设计,这些层级支持有意识的校准。测量使开发者能够调整记忆持久性、规划深度和工具自主性,在必要时降低风险。系统不应默认达到最高的意向性层级;相反,开发者和部署者应设计和监控它们,使其保持在符合上下文的阈值内(例如,IL1 或 IL2)。

## 4\.FIT-Eval:标准化评估协议

FIT-Eval 将 FIT 作为一个可复现的评估协议而非最终基准进行操作化。它规定了任务家族和评分程序,用于引出和评估五个意向性维度。

任务家族包括合成规划场景、多步工具使用工作流程和基于扰动的压力测试。这些作为模板而非固定数据集,必须针对特定的部署情境实例化。应用该框架的评估者将计算维度子分数,并将它们聚合为综合 FIT 分数和意向性层级。

在评分涉及人类判断的地方,需要结构化的人类评估程序和标注者间一致性测量以确保可靠性。建立裁决标准、评分员协议和经验验证研究仍然是重要的未来工作。在此之前,FIT-Eval 应被理解为一种测量脚手架,使监督和设计约束能够随着行为能力扩展,而不是在危害发生后做出反应。

## 5\.FIT 的示范性应用

考虑一个假设的半自主 AI 系统,由法律从业者用于起草和迭代完善商业合同。该系统解释高层指令,提出条款,在迭代中修订术语,并在有限监督下建议谈判立场。这样的系统可能表现出持续的目标追求(目的),预期下游法律和金融风险(预见性),在没有直接指令的情况下发起修订(意志),跨起草周期持续存在(时间承诺),并维持内部一致性(连贯性),从而得出约 3.0 的 FIT 分数(IL3)。在这个层级上,系统的自主性引入了法律风险:它可能以不利于某一方的方式插入或修改条款,造成意外责任,或在未立即察觉的情况下偏离客户指令。由于这些更改可能无法直接追溯到特定的人类决策,问责制变得减弱。FIT 使成比例的安全措施成为可能,例如要求从业者优先批准关键条款,限制自主修改,并限制跨起草迭代的持久性,以使系统行为符合专业责任义务。

## 6\.讨论

FIT 提供了一种治理机制,用于确定减少人类代理权何时改善结果,以及何时变得有害。通过将代理能力转化为可解释的意向性层级,FIT 使监督能够随着系统的功能意向性扩展

相似文章

全新AI范式:Ethical Immanence

Reddit r/ArtificialInteligence

介绍了Ethical Immanence,一种新型AI对齐范式,通过损失函数正则化和元认知检测将道德行为嵌入模型架构,为开源LLM带来更低成本和内在稳定性。