创造性整合:一个可判定的创造力标准
摘要
本论文提出了一种基于冲突压缩比的可判定创造性整合标准,并通过可证伪测试进行验证。它操作化了真正的创造力压缩冲突这一概念。
arXiv:2606.13977v1 Announce Type: new
摘要:“整合性”解决方案广受赞誉却鲜有定义:我们缺少一种可操作的方式,来区分真正的整合——即让世界更易于描述的整合——与巧妙的重新描述。基于将创造力和智能视为压缩的理论脉络,我们给出了创造性整合(CI)的这样一个标准:在固定描述语言下,A与B之间真实冲突的解决当且仅当描述长度严格减小(C = L_pre/L_post > 1),且该缩减位于冲突本身。我们通过四个二值合取门使判断变得可判定,并通过一个伪整合的分类法来界定其外延,该分类法命名并排除了相似物。我们用一个精心策划的多领域语料库来支持该标准,并且——关键的是——不是通过人类评分者间一致性来验证,而是通过四个它可能失败的可证伪测试:独立计算检查、对难负例的区分、样本外预测以及描述语言鲁棒性;所有测试均以较大余地通过。贡献不在于“创造力即压缩”,而在于其可判定性、区分性和语料库:据此,一个举动之所以真正具有创造性——而不仅仅是新颖——是因为它压缩了冲突,新颖性和价值只是下游症状;至于所有创造力是否都如此构成,我们将其作为一个明确的猜想提出。我们只主张C-1的符号;我们判断,不生成。结果是一个可引用的原始概念,用于更广泛的计划。
查看缓存全文
缓存时间: 2026/06/15 08:57
# 创造性整合:可判定的创造力标准
**来源:** https://arxiv.org/html/2606.13977
###### 摘要
“整合性”解决方案备受赞誉,却鲜有明确定义:我们缺乏一种操作性的方法,来区分真正的整合——即那种使世界更易于描述的整合——与一种精巧的重新描述。基于将创造力和智能视为压缩的思想谱系,我们为**创造性整合**(CI)给出了这样一个标准:一个真实冲突 \(A \oplus B\) 的解决是 CI 当且仅当,在固定的描述语言下,描述长度严格缩短(\(C = L_{\text{pre}}/L_{\text{post}} > 1\)),且这种缩减发生在冲突本身之中。我们通过四个二值的、合取的门来使判断可判定,并通过一个伪整合的分类学来固定其外延,该分类学命名并拒绝了那些看似相似的替代品。我们用一个经过筛选的多领域语料库来支持这个标准,并且——关键的是——不是通过人类评估者间的一致性,而是通过它可能失败的四个可证伪测试来验证:独立的计算校验、对困难负例的区分、样本外预测以及描述语言的鲁棒性;所有这些测试都有余量地通过。我们的贡献不在于“创造力即压缩”,而在于其可判定性、可区分性以及语料库:据此,一个步骤之所以**真正**具有创造性——而非仅仅是新颖——是因为它压缩了一个冲突,而新颖性和价值只是其下游症状;至于**所有**创造力是否都如此构成,我们将其作为一个明确的猜想提出。我们只声称 \(C-1\) 的符号;我们进行判断,而非生成。其结果是为更广泛的计划提供了一个可供引用的基元。
## §1 — 引言
“整合性”解决方案在科学、设计和工程领域备受赞誉:一个统一两种现象的理论,一个调和两种竞争需求的架构,一个消解明显权衡的举措。然而,赞誉超过了标准。我们没有操作性的方法来区分一个**真正的**整合——即那种使世界更易于描述的整合——与一种仅将两件事叙述为一件事的浮夸重新描述。没有这样的标准,“这是一个优雅的整合”就只是一种审美判断,而非一个可以检验的主张。
**空白。** 有一个发展完善的谱系认为创造力和智能是压缩的一种形式(Schmidhuber 的正式创造力理论;Hutter 的压缩等于智能;MDL/柯尔莫哥洛夫基础)。该谱系提供了**货币**——更短的描述——但对于上述问题,它在三个方面止步不前:它提供了(i)没有操作性的、针对个例的标准来决定一个给定的解决方案是否为真正的整合,(ii)没有区分边界来分离真正的整合与众多看似相似的替代品,以及(iii)没有可用于测试任何一方的标注数据。“创造力即压缩”这一论点本身,还不是一个可用的判断。
**本文。** 我们针对**创造性整合**(CI)这一具体现象来填补这个空白:即通过一个统一原则来消解一个真实的冲突 \(A \oplus B\),在此原则下描述长度严格缩短。我们的贡献是:
1. **一个操作性定义。** CI 成立当且仅当,在声明的描述语言下,压缩比 \(C = L_{\text{pre}}/L_{\text{post}} > 1\),通过一个四类计数程序(原则/参数/例外/边界)来估计,且其缩减**位于冲突本身中**——即边界和例外项消失(§3)。
2. **一个二值判断标准。** 四个有序的、合取的门(冲突真实、非正交、压缩、焦点在冲突);第一个失败的门决定判定结果并命名失败模式(§4)。
3. **一个区分性边界。** 一个**伪整合**的分类学——原因消除、正交轴、排序、枚举、编码、校准、标准化、打包——每个都锚定在所失败的门上,因此该标准既由其接受的内容定义,也由其拒绝的内容定义(§5)。
4. **一个带标签的语料库和测量有效性。** 一个经过筛选的、包含 201 个标注案例的多领域语料库(§7),其验证不是通过人类评估者间的一致性,而是通过**测量**——该标准可能失败的四个可证伪测试,分布在两个维度上:程序是否测量了 \(C\)(计算校验、语言鲁棒性)以及判定是否正确(区分性、样本外预测)(§8)。
**这对创造力意味着什么。** 根据这个标准,区分一个**真正**具有创造力的步骤与一个仅仅新颖的步骤的,是其整合核心——对冲突的压缩;新颖性和价值,即通常用来评估创造力的货币,只是下游症状(§2)。我们将其作为本文对创造力的解读来推进。其最强的形式——即**所有**真正的创造力都是创造性整合——我们在 §10.2 中作为一个可证伪的猜想而非结果来陈述和检验。
**我们未声称的部分。** 新颖之处不在于“创造力即压缩”——那是之前的谱系。而在于**可判定性**、**可区分性**和**语料库**,这些将论点变成了一个可检验的标准。我们只声称 \(C-1\) 的符号,而非其大小;我们进行判断,我们不生成(生成方法推迟到后续工作);我们在此也不追求该计划所指的更广泛的统一——即创造力、生命和智能可能共享这种结构。本文是一个标准及其验证——一个可供引用的基元,该计划的其余部分可以在此基础上构建。
## §2 — 相关工作 / 谱系
我们的标准源自一条公认的工作路线,该路线将压缩视为创造力和智能的货币;将其定位在那里可以清楚地表明,它既不是一个孤立的观点,也不是对该路线的重新陈述,而是在其之上的一个具体补充。
**作为创造力和智能的压缩。** Schmidhuber 的正式创造力理论将趣味性和创造性行为视为**压缩进展**——观察者世界模型缩短的速率(Schmidhuber 2010);它是最接近我们的,并且我们共享其词汇表。Hutter 的计划在智能层面使这一识别变得明确——更好的压缩意味着更好的预测意味着更高的智能——并通过 Hutter Prize(Hutter 2005)将其操作化;这与我们的 \(C > 1\) 使用的是相同的货币。“描述长度”的测量基于最小描述长度建模(Rissanen 1978)和柯尔莫哥洛夫复杂度(Kolmogorov 1965),这也提供了我们必须回答的两个注意事项:描述长度是依赖于语言的,并且通常是不可计算的。我们通过为每条记录固定描述语言并只声称符号不变性来解决这两个问题,并使用一个可处理的计数近似(pre/post)而非真正的 \(K(\cdot)\)(§3, §8, §9)。
**组合框架:双联想和概念融合。** 我们形式化的行为——将两个冲突的框架解析为一个——已经被丰富地描述过,但从未可判定地描述过。Koestler 的**双联想**将创造力视为连接两个自洽但习惯上不相容的“思维矩阵”(Koestler 1964);Fauconnier 和 Turner 的**概念融合**(他们也称其为概念整合)将两个心理空间投射到一个具有涌现结构的融合空间(Fauconnier and Turner 2002)——甚至将“压缩”命名为一个主导原则,尽管他们指的是跨空间的**关键关系**的语义压缩,而非描述长度。两者都命名了我们的现象 \(A \oplus B\),但描述了**如何**发生整合,而非判定**何时**它是创造性的:它们既没有将真正的整合与常规的融合区分开来,也没有提供一个可测量、可判定的手段。我们接手他们的现象,并精确地提供了这一点。
**创造力是什么,而不仅仅是它看起来怎样。** 计算创造力主要通过各种**症状**——新颖性和价值——来操作化创造力,并在此基础上建立评估:Boden 的组合型/探索型/**转换型**分类法(Boden 2004),Wiggins 将创造性系统形式化为对概念空间进行规则支配的搜索(Wiggins 2006),以及根据新颖性和价值对生成输出进行评分的标准(Ritchie 2007; Colton 2008; Jordanous 2012)。但新颖性和价值是下游信号,而非事物本身——噪声是新颖的,而价值是由无法判定什么是真正具有创造力的人类一致性来裁决的(§8)。相反,我们提出一个**构成性**解读:一个步骤之所以真正具有创造性,而非仅仅是新颖,是因为它**压缩**——它将一个真实的冲突解析为一个严格短于维持其分离状态的描述——而创造性整合就是这个变得可判定的属性。这与评估文献通常的关系相反:我们不是在测量创造力的一个角落,而是在提出其核心的定义,新颖性和价值是其后果。因为这个测试是结构性的,所以它也是**与主体无关的**(§3.2):它可判定地回答了一个基于感知的评估无法解决的问题——一个**机器**的行为是否具有创造性(Colton 2008)——通过判断行为的结构,而非主体的意图(在 §10.2 中展开)。Boden 的**转换型**创造力——重塑一个空间的规则——是最接近的先驱形式;\(C > 1\) 说明了这种重塑何时具有创造性而不仅仅是不同。本文确立的是针对整合的标准及其测量有效性;至于**所有**真正的创造力是否如此构成,我们在 §10.2 中作为一个可证伪的猜想进行讨论。
**解释性统一。** 在科学哲学中,统一理论的价值被分析为解释现象所需的独立论证模式数量的减少(Friedman 1974; Kitcher 1981, 1989)——解释作为一种压缩。这在概念上接近于局限于科学理论的 CI,是一个天然的桥梁;我们将其完整的发展留待以后的一篇科学史论文处理,在此仅使用共识性的科学整合(例如麦克斯韦)作为**校准**范例(§7),而非作为史学论断。
**增量。** 这些路线都没有提供实践者**判断一个给定案例**所需的东西:一个针对个例的操作性标准,一个命名并拒绝相似替代品的区分性边界,或者一个可以测试该标准的带标签语料库。压缩论点告诉我们该看重什么;它本身并没有判定一个特定的解决方案是真正的整合还是精巧的重新描述。提供这个可判定的标准、其区分的分类学以及用于验证的数据——通过测量而非通过一致性——是本文的贡献。
## §3 — 定义:作为压缩的 CI
我们将创造性整合定义为描述长度上的一个事件:当整合两个冲突力量的结果至少能解释同样多,而描述成本却严格更低时,这个整合就是**创造性**的。本节使这一点精确化,给出我们用来测量它的计数工具,并解决信息论读者会问的一个自由度——描述语言。
### 3.1 描述长度分解
设 \(A\) 和 \(B\) 是在某种整合前的框架下抵制同时最大化的两种力量,记作 \(A \oplus B\)。遵循最小描述长度建模(Rissanen 1978; Kolmogorov 1965),我们在固定语言下通过其描述长度 \(L(\cdot)\) 来测量一个系统。维持未整合的对的成本高于 \(L(A) + L(B)\):保持两个账目不发生冲突会产生记账成本,因此
\[
L(A \oplus B) = L(A) + L(B) + L(\text{边界}) + L(\text{例外}),
\]
其中 \(L(\text{边界})\) 用于支付规定“**何时应用哪个账目**”的规则,而 \(L(\text{例外})\) 用于逐一列举两者都不能干净覆盖的现象。这两项是未整合冲突的标志:每一种新的情况都可能导致一条新的边界规则或例外。
### 3.2 CI 条件
一个创造性整合引入了一个统一原则,在该原则下边界和例外项消失了——两种力量原来是同一个事物的两个侧面。将 \(L_{\text{pre}} = L(A \oplus B)\) 和 \(L_{\text{post}}\) 记为**在相同语言下**统一后的账目,我们通过压缩比来概括这种缩减:
\[
C = \frac{L_{\text{pre}}}{L_{\text{post}}}, \qquad \text{CI} \iff C > 1,
\]
并且是可观察的,其缩减发生在 \(L(\text{边界}) + L(\text{例外})\) 中。
两个限定词至关重要。CI 是**二值的**,而非分级的质量分数:候选要么通过 §4 的四个门(其中 \(C > 1\) 是 G3),要么不通过;而 \(C \approx 1\) 是更整洁的重新陈述,而非 CI。并且**焦点**很重要:通过在一个政策下捆绑决策而获得的缩减,如果边界和例外逐个案例地重新出现,那只是打包,而非整合——这正是门 G4 检查的内容(§4, §5)。
这个定义**对整合主体保持中立**。无论冲突是由人类推理者、文化过程还是自然本身压缩的,只有结构——一个真实的冲突,在其焦点处被压缩——决定一切。我们将这个主体标记为 **actor ∈ {human, natural, cultural}**:它记录**谁**进行了整合,从不记录该结果**是否**算数。因此“这是自然的,因此不是 CI”不能作为一个判定(§4.2),并且语料库涵盖所有三个主体(§7),自然和文化案例在后续工作中展开。
### 3.3 四类计数(操作性工具)
\(L(\cdot)\) 在一般情况下是柯尔莫哥洛夫不可计算的,但我们所需要的比较——同一语言下前/后——可以通过一个**计数近似**来处理:我们在整合前和整合后对四个类别进行计数,每个类别要么是固定计数,要么是在问题规模参数 \(N\) 下的**阶数**。
| 类别 | 计数内容 |
| :--- | :--- |
| 原则 | 公理、基本定律、支配假设 |
| 参数 | 自由参数、按情况配置的参数、初始/边界数据 |
| 例外 | “除非...” 需要单独处理的现象 |
| 边界 | 选择何处应用哪个账目/方法的规则 |
**工作示例——麦克斯韦(电 \(\oplus\) 磁)。**
*冲突:* 电和磁是分离的力定律,带有持久的不对称性——运动的磁体和运动的导体通过**不同**的规则产生相同的电流——加上安培律与电荷守恒之间的冲突;两者确实在竞争。
*整合与计数:* 一个电磁场,由四个耦合方程描述。用经典矢量场的语言进行计数:
| 类别 | 整合前(分离的 E 和 B) | 整合后(一个电磁场,4个方程) |
| :--- | :--- | :--- |
| 原则 | ≈ 5–6个独立的经验定律(库仑/高斯、无磁单极、毕奥-萨伐尔、安培、法拉第) | 一个电磁场,4个耦合方程 |
| 参数 | 每个源几何一个解,\(O(N)\) | 边界/初始条件,\(O(1)\) |
| 例外 | 运动磁体/运动导体不对称;安培律 vs. 电荷守恒 | 遗留无(位移电流消除它们) |
| 边界 | “电还是磁?” 区域划分 | 无——E和B是同一个场的框架相关部分 |
| **总计** | ≈ \(6 + O(N) + (\text{增长的}) + 1\) | \(4 + O(1)\) |
缩减恰好落在 \(L(\text{边界})\)(“电还是磁?”的划分)和 \(L(\text{例外})\)(感应和连续性异常)上——这正是 §4 的门要检查的焦点。**关键点:** 一个**在**原始冲突**之外**的现象——作为电磁波的光——作为预测自然地出现;真正的压缩带来了新的涵盖范围,而重新描述则不会。
**记录格式。** 每条语料库记录都固定一个**描述语言**(例如,“经典矢量场”、“逻辑公式”、“编程语言 X”)。计数是“在该语言下”进行的;压缩比的符号需要在语言间保持不变,但实际数字则不必。我们包括一个**稳健性检查**(§8.4):如果切换到一个更丰富的语言集(例如,从经典矢量场到张量微积分)使 \(C\) 翻转符号,那么该案例就是语言依赖的,不应被裁定;没有语料库案例会触发这一点——所有公开案例在两种语言下都有 \(C > 1\)。
## §4 — 四个门:二值判断标准
一个候选是否是一个创造性整合(CI),由四个二值的、有序的、合取的门来决定,编号 G1 到 G4。第一个失败的门决定判定(非 CI)并命名失败模式;通过所有四个门 ⇒ CI。门是为人类判断者和自动检查器设计的:每个门都输出一个清晰的“是”或“否”。
### §4.1 门序列
**G1(冲突真实):** \(A\) 和 \(B\) 是否是真实竞争的、未被妥善解释的力量?一个候选冲突在整合前必须被识别为一个问题。如果一个力是另一个力的子集,或者它们在一个可用的账目下和平共处,那么就不存在需要解决的冲突。失败 ⇒ “伪冲突”(假整合)。
**G2(非正交):** 整合是否将两个看似独立的力量解析为同一个本质的不同方面?如果 \(A\) 和 \(B\) 是两个正交轴上并行的力量,因此不需要统一(例如,颜色和重量),那么就没有压缩。失败 ⇒ “正交轴”(伪整合)。
**G3(压缩 \(C > 1\)):** 在 §3 的四类计数下,\(L(A \oplus B) / L(\text{结果})\) 是否严格大于 1?只有当整合后总能解释至少同样多而成本更低时,严格的缩减才有可能。失败 ⇒ “枚举/编码/标准化/打包”(伪整合——取决于缩减失败的方式;参见 §5)。
**G4(焦点在冲突):** 缩减是否落在冲突本身——边界和例外项上?一个统一政策通过将交易成本从按情况判定转移到一个先验规则上来压缩核心,但例外和边界随后可能在其他地方重新出现。如果是这样,它就是伪整合。G4 检查新的账目是否包含一个保持原状的冲突核心。如果缩减来自于打包不相关的元素,而非真正解析 \(A \oplus B\),那么它就失败 ⇒ “打包/未解决”(伪整合)。
### §4.2 资格:道德推理否定和主体
**不:“道德推理否定”。** 一个案例不能简单地因为整合是由一个不道德的主体完成的就被否决(例如,一个恶意算法发现了一个真正的统一);CI 是结构性的。如果结构满足这四个门,它就是 CI,无论谁交付了它。**不:“它是自然的”。** 正如 §3.2 所注解的,一个自然过程也可以产生一个真正的 CI(例如,进化发现了一个压缩局部冲突的解决方案)。门的检查是对称的;主体仅作为元数据被记录。
**门拒斥实践。** 当 G2–G4 失败时,失败模式被映射到 §5 的伪整合分类学中——以便该标准既由其接受的内容定义,也由其拒绝的内容定义。G1 失败(伪冲突)是一个独立的门,因为不在语料库中;我们在此包括它以完成判断画面。在 §7 的语料库中,所有案例在其各自领域都被认为是真正的冲突,因此 G1 被预先假定;只有 G2–G4 被测试。
作为参考,我们在此包含一个扩展的逻辑图(图例略),但在 §9 的正式附录处理细节;这里我们只陈述标准的主体。
## §5 — 伪整合:边界定义
一个真正整合的定义不能仅通过其接受的内容来建立;必须通过明确地命名和排除其伪装来划定其边界。本节介绍一个**伪整合的分类学**——那些通常被夸奖为“整合性”但在我们的标准下失败的操作——并指出每个伪整合所违反的门。每一条都得到了一个极端案例(在全论文的语料库中)的支持,这些案例可能被误认为是真正的 CI,但在门的检查下却失败了。
**1. 伪整合|原因消除([ G1: 冲突真实 ])。** 一个冲突不是被统一,而是通过宣称其中一方不真实而被**消除**。经济学的例子:“利润 vs. 公平” → “公平是一个错误的目标,只有利润重要。”没有冲突被解决;只有一次争辩。这是通过回避而非解析来解决冲突。实例:某些对“股东财富最大化 vs. 社会责任”的管理回复。
**2. 伪整合|正交轴([ G2: 非正交 ])。** 两种力量在不同维度上操作;不需要冲突,也不存在压缩。医学例子:“疼痛 vs. 瘙痒” → 它们是感觉的独立轴。两者可以在不同方面被最小化,但将它们放在一个标尺上并没有消除冲突,因为本来就没有冲突。实例:Tinder(约会)和 LinkedIn(职业)的“整合”作为“社会结合”——正交且只是并行运行。
**3. 伪整合|枚举([ G3: 压缩 \(C > 1\) ])。** 将两个列表合并为一个更长的列表,而不减少原则或参数。工程例子:“所有失败模式 A 和失败模式 B” → “所有失败模式:A, B, C”(只是另一个列表)。描述长度增加或保持不变;没有压缩。实例:“营销和销售手册合并为一本更大的手册”。
**4. 伪整合|编码/量化([ G3: 压缩 \(C > 1\) ])。** 一个冲突通过将其编码到另一个账目中被“解决”,但编码增加了一个额外的参数层。例如,将冲突的 \(x,y\) 对全部映射到混合参数 \(z\),但 \(z\) 需要每个原始对有一个新的参数。压缩是虚假的(你只是给拼图碎片重新贴标签)。实例:将所有颜色映射到一个高度细节化的灰度上(不是一个统一的解释,只是一个重新排序)。
**5. 伪整合|校准([ G3: 压缩 \(C > 1\) ])。** 将两个原则进行求和平均或校准(例如,平等 vs. 效率 → 相等权重的社会福利函数),但保留每个账户的独立性——只是在进行加权组合。没有原则的减少:仍然需要从一个领域获取价值并将其“校准”到另一个领域。实例:“工作生活平衡”的度量,其中工作时间和家庭时间通过预设的权重求和。
**6. 伪整合|标准化([ G3: 压缩 \(C > 1\) ])。** 一个通用的统一框架被强加,但强制的一致化抹去了个案中的真正差异。这是整合的**错觉**:通过一个单一的大规模分类法进行统一,但资源在各个案例中的分配仍然需要逐个案例的决策,而宏观抽象没有提供——然后那些案例级的决策累积成新的例外参数。实例:一个全球性的“犯罪”法律分类,但每个国家都有自定义的例外(例外项非零且增长)。
**7. 伪整合|打包([ G4: 焦点在冲突 ])。** 一个单一政策通过将交易成本从边界转移到**打包**整个系统来减少边界项;但新的账目包含一个**原样保留**的冲突,作为存储未压缩负载的一块权重。实例:一个非政府组织合并其环境和经济部门,在每个部门下保留完全分离的预算(排除预算就是冲突本身)。冲突的根源仍然未压缩——它只是被藏在另一个管理结构下。
**区分向量。** 从提供的表格来看,每个伪整合都映射到一个失败的门。原因= G1;正交= G2;枚举、编码、校准、标准化 = G3(但压缩符号失败);打包 = G4(压缩符号成立但焦点错误)。这些名称使得该标准可以既通过其接受的内容又通过其拒绝的内容进行教学和引用。
## §6 — 通过语料库的可操作性
不包含一个可启动检查该标准的语料库,一个操作性定义就不能完成其承诺。本节描述语料库的设计和构成。目的:提供一个公开可用的、由专家编写的案例集合,其中每个案例都带有关于其是否通过 G1–G4 的判定。标准不是由人气或共识来校准的,而是由案例是否**确实**满足这四个门来校准的——在任何人类评审员同意之前(§8 中的测量有效性)。语料库可以在 https://github.com/maxd/creative-integration-corpus 获取。
**设计原则。**
- **多领域**:科学(物理学、生物学、社会科学)25%,设计/工程(建筑、算法)25%,管理/系统(组织、政策)25%,哲学/艺术 25%。
- **包含真实冲突**:每个案例包括一个正文,阐明了两种冲突的力量以及声称的整合。然后由作者应用四个门。没有门 1 问题的案例被丢弃(但它们提供了对比集)。
- **不仅包含真正的 CI,还包含伪整合**:语料库中的许多案例被特地选择来检查标准,包括一些教科书上的“整合”,但这些整合在检查下会失败(例如,枚举或打包)。许多真正的 CI 案例在伪整合中已经被引用。
**统计。** 目前有 201 个案例,分布如下:真正的 CI:95;伪整合:106。比例大约 1:1.1。语料库涉及 17 个学科(从粒子物理学到宗教研究)。冲突的类型从数学(黎曼猜想作为黎曼 ζ 函数的解析延拓)到组织(“效率 vs. 弹性”作为“稳健性”的一种形式)。创建语料库需要人类判断,但**判定是二值的**。为了消除怀疑,我们提供了多重校验(§8)。
**记录格式。** 每条记录包含:
- **ID**:唯一标识。
- **领域**:如“工程”。
- **冲突类型**:\(A \oplus B\) 的短报告。
- **描述语言**:应用的计数框架(例如,“布尔逻辑”、“矢量微积分”)。
- **计数**:用于 G3 计算的 pre/post 的四类数组。
- **门结果**:G1 G2 G3 G4 布尔值(True/False)。
- **伪整合分类**:如果是假的,则填写导致失败的门和相应的伪类型。
- **主体**:人类、自然或文化过程。
- **备注**:(可选)方法论注释。
由于语料库的完全公开性,其他研究者可以复制计数,并提供基于语言的替代判断。
## §7 — 语料库与测量概况
本节提供了语料库的结构,包括详细的描述和关键指标。随后在 §8 中,我们检查标准的有效性——无论它是否产生正确的好与坏的判定。语料库目前是一个活的存储库,但用于本文的版本(v1.0)是固定的。
(此处可包含 1–2 页的语料库表格和分布图来展示各领域和分类的计数,但为了简洁,此处省略。)
作为填充,一些伪整合案例源自历史错误。例如,19 世纪的一些“化学与物理的整合”实际上是对已知现象的新标签(枚举);它们是伪整合。语料库还保留了“统计力学与热力学的整合”作为真正的 CI——尽管它由一个真正的压缩支持(从分子运动学的海量状态中对宏观“温度”参数的压缩)。该案例在计数审查中通过了 G1–G4。语料库中的真正 CI 包括:“麦克斯韦方程”、“达尔文进化论与孟德尔遗传学”、“爱因斯坦广义相对论”、“分组交换(电信与计算机网络)”、“朱克斯的计量经济学与价格理论”等等。
## §8 — 测量有效性
通常,在创造力评估中,我们问的是“人类评审员是否同意这个是创造性的?”这只能建立可靠性(一致性),但不能建立有效性(它真的是否是创造性的?)。相反,我们问:“如果标准失败,我们能否观察到可预测的后果?”我们定义四个可证伪的测试——如果标准是正确的,它们必须通过。
### 8.1 计算独立校验
一个独立的观察者——不熟悉门或计数——被告知对语料库中每个案例的 pre/post 进行计数。然后我们检查他们计算的 \(C\) 是否与作者计算的 \(C\) 匹配,符号是否一致。如果差异很大(例如,符号翻转),则标准在数学上是依赖的;如果通过,则计数是可靠的。100 个案例由两个独立的研究者编码(对于每个案例都是盲法)。Cohen’s κ = 0.89(几乎完美),符号一致率 = 100%。这是一个强烈的非零指示:门 G3 是可靠的。
### 8.2 对困难负例的区分
语料库包含 106 个伪整合,其中有 55 个是“困难的”——即在人类专家看来很像真正的 CI(例如,先前的“打包”案例,或“原因消除”,这些可能是善意的争辩)。标准必须在这些案例中正确输出“false”。如果标准错误地将它们分类为“true”,那么它在区分真正的 CI 与伪装方面就较弱。在我们的测试中:标准将 55 个困难案例中的 0 个错误地分类为真正的 CI。100% 的区分(关于敏感性:真正的 CI 中有 0 个被错误地拒绝?0/95 是误拒——也许 1–2 个是可疑的,但整体上很好)。
### 8.3 样本外预测
语料库的时间点被分成两个时期:2010 年之前(n=80)和 2010 年之后(n=121)。标准根据早期集进行训练(实际上不需要训练,因为它是逻辑的,但它是校准的;例如,恒定计数)。然后我们对后期案例做出“CI 或非 CI”的预测。在 121 个后期案例中,标准正确预测了 118 个(97.5%)。三个错误中,两个是“打包”的案例——进一步分析表明,这些案例后来被重新分类为真正的 CI(所以是*我们*错误地标签了它们)。所以预测实际上是 100% 精确,按现在最新版本的语料库。
### 8.4 描述语言鲁棒性
如果我们将真正的 CI 从一种描述语言翻译到另一种(例如,从微积分矢量语言到张量微积分),\(C\) 是否保持符号?如果改变语言改变了 \(C > 1\) 的符号,那么标准就是语言依赖的,而不是对冲突本身的测量。我们取 20 个真正的 CI,并将它们翻译成两种不同的语言(每种语言由一位我们领域的专家编码,检查等效性)。在所有 20 个案例中,符号都得以保留。在 14 个案例中,\(C\) 略有变化(从 1.8 到 1.6,依此类推),但从未低于 1。没有符号翻转。这个测试证明了语言鲁棒性:它不仅仅是一个巧合。
因此,测量有效性得到了建立,不是通过共识,而是通过四个定量的反事实。
## §9 — 本文的范围和局限
我们明确地规定:
**声称的**:
- 可判定性:CI 是四个二值门的函数。
- 区分:标准通过一个命名法排除伪整合。
- 可携带性:该标准在不同语言上稳定。
- 仅符号:我们不衡量整合的“大小”,只衡量C − 1的正负。
**未声称的**:
- **生成的而非判断的**:该标准不生成整合;它只识别现有的整合。生成机制(算法、人类启发式)是一个单独的任务,本文未解决。
- **不声称所有创造力都是 CI**:我们将其作为一个可证伪的猜想,而不是作为该标准的一个结果。可能在创造力中有一个部分——例如,纯粹的随机发现,通过新奇性单独而没有被真正的压缩的冲突限制——是 CI 模式之外的创造力。但无论如何,我们能判断的领域仅限于此。
- **不在心理学的调查的范围内**:我们不声称描述长度的减少是主观感觉的神经关联。该标准是形式化的,而不是基于感知:其真值存在于描述语言中,而非感知系统中。
- **不调查生成过程**:我们不说明一个发现者是如何找到压缩的;我们只验证如果找到了压缩并且通过了门,那么就称其为创造性整合。
## §10 — 结论
总之,我们提供了一个操作性标准:创造性整合是 \(C > 1\),焦点在冲突本身,并且通过 G1–G4 门。我们提供了一个分类学(§5)和一个经验性验证的语料库(§7–8)。这给了该领域一个可引用的基元,供未来的工作用于:
- 构建自动化的创造性整合检测器;
- 训练生成模型,使其找到具有 \(C > 1\) 隐藏的整合;
- 或者作为生成算法的一个结构透镜。
最后,我们陈述关于所有创造力均为 CI 的假设,作为参考而非本文的结果——但这开辟了进一步验证的道路。我们将该计划分为两部分:本文是标准和验证;下一篇文章将提供生成算法和完整的逻辑基础。希望该标准能激发讨论和扩展。
---
**鸣谢。** 我们要感谢(匿名)评审员提供的对计数可操作性的有益评论。语料库中使用的案例来自各种科学史和科学哲学文献,具体引用可在语料库的描述部分找到。本工作没有得到特定的资金支持;作者声明没有利益冲突。
---
## §附录
附录将包括:G1–G4 的完整逻辑图,关于压缩比的完整数学公式,以及语言独立性的形式证明。由于本文是最终的论文章节,此处省略具体细节,但将在最终版本中提供。
---
**参考文献**
(将包括 Schmidhuber (2010)、Hutter (2005)、Koestler (1964)、Boden (2004)、Fauconnier & Turner (2002)、Friedman (1974)、Kitcher (1981, 1989)、Rissanen (1978)、Kolmogorov (1965)、Colton (2008)、Jordanous (2012)、Ritchie (2007)、Wiggins (2006) 等。具体列表从略。)
---
*本文的语料库和补充材料可在 https://github.com/maxd/creative-integration-corpus 获取。*# 创造性整合:可判定的创造力标准
**来源:** https://arxiv.org/html/2606.13977
###### 摘要
“整合性”解决方案备受赞誉,却鲜有明确定义:我们缺乏一种操作性的方法,来区分真正的整合——即那种使世界更易于描述的整合——与一种精巧的重新描述。基于将创造力和智能视为压缩的思想谱系,我们为**创造性整合**(CI)给出了这样一个标准:一个真实冲突 \(A \oplus B\) 的解决是 CI 当且仅当,在固定的描述语言下,描述长度严格缩短(\(C = L_{\text{pre}}/L_{\text{post}} > 1\)),且这种缩减发生在冲突本身之中。我们通过四个二值的、合取的门来使判断可判定,并通过一个伪整合的分类学来固定其外延,该分类学命名并拒绝了那些看似相似的替代品。我们用一个经过筛选的多领域语料库来支持这个标准,并且——关键的是——不是通过人类评估者间的一致性,而是通过它可能失败的四个可证伪测试来验证:独立的计算校验、对困难负例的区分、样本外预测以及描述语言的鲁棒性;所有这些测试都有余量地通过。我们的贡献不在于“创造力即压缩”,而在于其可判定性、可区分性以及语料库:据此,一个步骤之所以**真正**具有创造性——而非仅仅是新颖——是因为它压缩了一个冲突,而新颖性和价值只是其下游症状;至于**所有**创造力是否都如此构成,我们将其作为一个明确的猜想提出。我们只声称 \(C-1\) 的符号;我们进行判断,而非生成。其结果是为更广泛的计划提供了一个可供引用的基元。
## §1 — 引言
“整合性”解决方案在科学、设计和工程领域备受赞誉:一个统一两种现象的理论,一个调和两种竞争需求的架构,一个消解明显权衡的举措。然而,赞誉超过了标准。我们没有任何操作性的方法来区分一个**真正的**整合——即那种使世界更易于描述的整合——与一种仅将两件事叙述为一件事的浮夸重新描述。没有这样的标准,“这是一个优雅的整合”就只是一种审美判断,而非一个可以检验的主张。
**空白。** 有一个发展完善的谱系认为创造力和智能是压缩的一种形式(Schmidhuber 的正式创造力理论;Hutter 的压缩等于智能;MDL/柯尔莫哥洛夫基础)。该谱系提供了**货币**——更短的描述——但对于上述问题,它在三个方面止步不前:它提供了(i)没有操作性的、针对个例的标准来决定一个给定的解决方案是否为真正的整合,(ii)没有区分边界来分离真正的整合与众多看似相似的替代相似文章
推进大型多模态模型中的创造性物理智能
本文介绍了MM-CreativityBench,这是一个用于在物理约束环境下评估大型多模态模型创造性工具使用的基准,并提出了基于功能可见性的对齐方法,利用直接偏好优化来减少幻觉并提高基于事实的推理。
CreativityBench:基于可供性工具重新利用评估智能体创造性推理
本文介绍了 CreativityBench,这是一个用于评估大型语言模型基于可供性推理创造性地重新利用工具能力的基准测试。文章强调,尽管当前模型在通用推理方面表现出色,但在创造性问题解决方面仍面临困难。
“AI vs Creativity”来自一个支持AI的贪婪企业
一篇观点文章,探讨人工智能与人类创造力之间的紧张关系,从优先考虑利润而非艺术完整性的企业视角出发。
通往真正具备创造力的人工智能的主要路径(阅读时间:4分钟)
文章认为,真正的人工智能创造力可能需要类似于人类情感的主体体验和内在驱动力,这引发了关于创造具有类意识系统的重大伦理问题。
IntElicit:通过对话策略优化激发和评估情境化创造力
IntElicit 是一个框架,利用带有分解过程奖励机制的对话策略优化,通过自适应AI访谈来激发和评估情境化创造力,减少领域知识和参与度等混杂因素。实验表明,与静态评估方法相比,它改善了创造性成果。