AI4SE与SE4AI探索:回顾与展望的十年

arXiv cs.AI 论文

摘要

本文回顾了过去十年中人工智能系统工程(AI4SE)和系统工程人工智能(SE4AI)的进展,识别出五个关键研究空白,并提供了一个人机一致性数据集和用于相关性判断的网络探索工具。

arXiv:2606.19630v1 公告类型:new 摘要:2020年3月《INCOSE INSIGHT》关于人工智能与系统工程(SE)的特刊成为该刊物历史上下载量最高的一期,并催生了一个研究社区,现每年有超过250人注册参加其年度研讨会。在本文中,我们基于作者对该领域核心论文的阅读,追溯了人工智能与系统工程在三个阶段(此处称为基础阶段、应用阶段和LLM转折阶段)的进展,并阐述了我们对社区已达成共识以及仍存在关键空白之处的看法。此外,我们利用人类专家和六个人工智能模型进行了一项人机一致性文献综述,评估了1712篇《INCOSE INSIGHT》文章和889篇SERC出版物的相关性。结果确定了五个关键研究空白,并为从业者在系统工程中应对人工智能的采用、保障和劳动力转型提供了指导。我们分享了一致性数据以及AI4SE/SE4AI探索者网络应用程序,以便读者将自己的相关性判断与人类和人工智能评分员进行比较。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:31

# 回顾与展望的十年预印本。本文附带的AI4SE/SE4AI探索者网络应用已部署于https://bankh.github.io/ai4se-se4ai-explorer/(源代码:https://github.com/bankh/ai4se-se4ai-explorer),人类–AI一致性数据集可在https://doi.org/10.7910/DVN/IKLUYN获取。  
来源:https://arxiv.org/html/2606.19630  
Sinan BankG (https://scholar.google.com/citations?user=vU6oBhwAAAAJ) 科罗拉多州立大学系统工程系,柯林斯堡,CO 80523 & Daniel HerberG (https://scholar.google.com/citations?user=rn7gJxMAAAAJ) 科罗拉多州立大学系统工程系,柯林斯堡,CO 80523 & Thomas BradleyG (https://scholar.google.com/citations?user=v5t3VSQAAAAJ) 科罗拉多州立大学系统工程系,柯林斯堡,CO 80523

###### 摘要

2020年3月出版的INCOSE INSIGHT人工智能与系统工程\(SE\)专刊成为该刊物历史上下载量最高的一期,并催生了一个研究社群,其年度研讨会现已吸引超过250名注册者。在本文中,我们基于作者对该领域核心论文的研读,追溯了人工智能与系统工程在三个阶段的进展——这里称之为基础阶段、应用阶段和大语言模型转折阶段——并阐述了我们对于社群已达成共识的方面以及仍存在关键空白的看法。此外,我们进行了人类–AI一致性文献综述,利用人类专家和六个人工智能模型评估了1,712篇INCOSE INSIGHT文章和889篇SERC出版物的相关性。结果识别出五个关键研究空白,并为从业者在系统工程中采用AI、保障AI应用以及劳动力转型方面提供了指导。我们共享了一致性数据以及AI4SE/SE4AI探索者网络应用,以便读者将自己的相关性判断与人类和AI评估者进行对比。

关键词AI4SE·SE4AI·系统工程·大语言模型·人类–AI一致性·文献综述

## 1 引言

人工智能\(AI\)正在重塑工程师构想、设计和治理复杂系统的方式。2020年,一期具有里程碑意义的INCOSE INSIGHT专刊提出了AI4SE/SE4AI双重框架——用人工智能改进系统工程,以及用系统工程支持AI赋能系统——为一个新兴社群建立了词汇和研究议程\(McDermott等人,2020 (https://arxiv.org/html/2606.19630#bib.bib17)\)。该期专刊随后成为INSIGHT历史上下载量最高的一期。六年后的今天,这项研究提出了以下问题:哪些方面取得了进展?哪些方面令人意外?从业者可以采取哪些步骤来塑造这一变革?

我们启动这项研究是为了评估该领域的高势头和高活跃度是否与其证据基础相匹配。简而言之:尚未。自2020年首届活动以来,研讨会注册人数每年都超过200人,并在2025年达到售罄的250余人\(系统工程研究中心,2025 (https://arxiv.org/html/2606.19630#bib.bib24)\)。INCOSE国际研讨会现已设有关于系统工程大语言模型的专门主题。然而,最近的一篇系统综述仅识别出284篇AI+SE交叉领域的论文(尤其是AI4SE),并从中选取33篇进行了深入评审\(Poulsen等人,2025 (https://arxiv.org/html/2606.19630#bib.bib21)\)。系统工程中AI的实证研究仍然处于萌芽阶段。

本文的叙述基于两类证据(均截至2025年初)。首先,我们参考已发表的文献。本研究利用一位人类专家和六个人工智能模型,对1,712篇被Google Scholar收录的INCOSE INSIGHT文章进行分析,以识别人工智能与系统工程交叉领域中的相关文献。其次,我们参考社群来源。本研究参考了一个涵盖研讨会报告、研讨会项目以及SERC出版物档案的文集,其中包含889篇出版物,有140篇被判定与系统工程中的AI主题相关。

这些发现对于我们理解该领域的现状做出了三项贡献。首先,我们追踪了该领域在三个拟议阶段中的发展轨迹,并试图描述社群普遍认同的方面。其次,我们识别出五个关键研究空白,应在未来的研究和研讨会中加以解决。第三,我们以人类–模型一致性研究的形式提供了一项系统文献综述,共享了基础数据,并提供了一个交互式网络应用,供读者根据自己的判断来评估该领域。

## 2 人类–模型一致性文献综述的方法

我们如何知道哪些论文属于这一综合?与其依赖断言,我们设计了一项研究,该研究在揭示AI能力方面与揭示文献本身同样具有启发性。

设计。我们要求一位人类专家和六个人工智能模型独立对1,712篇被Google Scholar收录的INCOSE INSIGHT文章进行判断,以评估其与人工智能–系统工程领域的相关性。人类专家识别出46篇相关文章。这六个模型涵盖两类:三个专有云端模型(Gemini 3.1 Pro Preview、Claude Opus 4.6和GPT-5.2)和三个本地部署的开源模型(Mixtral 8x22B、Llama 3.3 70B和DeepSeek R1 70B,通过Ollama运行)。对于INSIGHT语料库,所有评估者——人类和AI——仅根据文章标题进行判断;对于SERC语料库(889篇出版物),我们设置了两种输入条件:仅标题和标题+摘要。我们测量了每个模型与人类专家的一致性程度,以及当提供摘要时模型改变判断的情况(从仅标题判定到标题+摘要判定的转变)。在此过程中,人类专家作为比较基准而非黄金标准:一致性统计量衡量的是分流级相关性判断的一致性,而非模型的正确性。

我们的发现。结果比我们预期的更为微妙。我们曾假设所有模型都难以进行领域特定的相关性判断,但专有模型处理得相当不错且稳定,而本地模型则差异很大。对于INSIGHT,专有模型与人类的一致性百分比范围从GPT-5.2的97.8%到Opus 4.6的99.0%,本地模型则从Mixtral的80.8%到DeepSeek的96.7%。对于SERC仅标题条件,专有模型的一致性为91.7–96.0%,而本地模型为75.3–91.6%。Cohen’s kappa(κ)修正了偶然一致性,进一步揭示了差异:专有模型在INSIGHT上的κ=0.67–0.77,在SERC仅标题上κ=0.66–0.85;而本地模型的表现范围从接近偶然水平(Mixtral,在INSIGHT上κ=0.10)到与专有模型相当(DeepSeek,在SERC仅标题上κ=0.71)。换句话说,本地模型在INSIGHT和多达24.8%的SERC文章上与人类意见相左,而专有模型最多只相差2.2%和8.3%。关键区别在于一致性:专有模型在两个语料库上表现稳定,而本地模型的表现高度依赖于具体模型。完整的一致性统计和各模型细分结果可在提供的数据集中获取\(Bank等人,2025a (https://arxiv.org/html/2606.19630#bib.bib2)\)。

这对从业者意味着什么。如果AI模型对什么构成“相关论文”存在如此大的分歧,那么从业者应当预期,当AI工具对需求进行分类、评估风险或生成测试用例时,也会出现类似的变异性。这不是反对使用AI工具的论据——而是主张理解其可靠性边界的论据。

参见图注图1:六个模型在获得摘要(SERC出版物)时的决策变化:仅标题(左)到标题+摘要(右)。仅标题与标题+摘要。为了对SERC出版物进行分类,我们比较了模型在两种输入条件下的判断:仅标题和标题+摘要。在两种条件下,每个模型都将每篇出版物分配到四个类别之一——不相关,或者相关但属于回顾、展望或先导——并且我们测量了每个模型在提供摘要时与人类一致的程度以及改变类别的频率。图1 (https://arxiv.org/html/2606.19630#S2.F1)以桑基图形式可视化了所有六个模型的这些决策变化,每条链接的宽度与从仅标题类别(左侧)移动到标题+摘要类别(右侧)的论文数量成正比。这种视图使得思路转变的方向一目了然——例如,模型在阅读摘要后有多少篇论文仍保留在“不相关”类别,或者有多少篇从一个相关性类别转移到另一个类别。本地和专有模型在获得摘要后均显示出从仅标题到标题+摘要的转变。

参见图注

参见图注

图2:上图:按年份的人类–AI一致性(1995–2025)。下图:按年份的人类–模型共识(2020–2025),按每个模型分别显示,子图a–c对应INSIGHT,d–f对应SERC。两个面板均涵盖INSIGHT和SERC。逐年模式。人类专家将1,712篇INSIGHT文章中的46篇标记为相关。按年份细分揭示了一个清晰的故事:2020年之前,INCOSE INSIGHT文章中只有不到2%涉及人工智能–系统工程交叉领域(1,471篇中的27篇);从2020年起,这一比例上升到约8%(241篇中的19篇)——增长了近四倍,恰逢专刊发行和随后的社群发展。

有33篇文章获得了人类和至少一个专有AI模型的一致性(15篇来自2020年之前,18篇来自2020–2025年间);其中有8篇文章获得了所有四个评估者(人类和三个专有模型)的普遍一致。这33篇达成一致的相关文章构成了我们的文献选择基础,并提供了社群认为核心内容的基于数据的视角。图2 (https://arxiv.org/html/2606.19630#S2.F2)以两个面板呈现了这一情况。第一个面板(人类–AI一致性)显示了完整的时间线(1995–2025):每年人类标记为相关的文章数量(INSIGHT共46篇,SERC共164篇),以及至少与一个专有模型达成共识的文章数量(INSIGHT共33篇,SERC共140篇)。第二个面板(人类–模型共识)聚焦2020–2025年,每个模型对应一个柱——子图a–c显示INSIGHT,d–f显示SERC,分别对应GPT-5.2、Gemini 3.1 Pro Preview和Opus 4.6。同一篇文章可能出现在多个柱中,因此33篇的总数并非各柱之和。

引文影响力。截至2026年2月7日的Google Scholar引文数据证实了这些文章的影响力。33篇达成一致的相关AI文章平均每篇被引9.5次,而INCOSE INSIGHT的其他文章平均每篇被引2.4次——相差7.1次(图3 (https://arxiv.org/html/2606.19630#S2.F3))。约39%的达成一致的相关文章被引次数为零;其中大部分是较新的(2021年后),因此引文数仍在积累。被引最多的是2020年专刊中的文章:McDermott等人的路线图以67次被引领先,其次是Hagedorn等人(40次)、Freeman(38次)、Madni(33次)和Rouse(28次)。

参见图注图3:每篇文章的平均引文次数:达成一致的相关AI文章与一般INCOSE INSIGHT文章对比。为了支持透明度,我们共享了一致性数据,并提供了AI4SE/SE4AI探索者——一个交互式网络应用,读者可以在此对INCOSE INSIGHT和SERC出版物进行分类,并将自己的判断与我们研究中的人类和AI评估者进行比较。用户可以按语料库(INSIGHT或SERC)和年份范围进行筛选,然后评估论文的相关性或按方向(AI4SE、SE4AI、两者或都不是)进行分类。每次相关性评估后,应用会显示人类专家和所有六个AI模型对该论文的评分。用户可以将自己的评估结果提交回公共存储库,从而为原始研究之外不断增长的人类–AI一致性数据集做出贡献。探索者还包括一个交互式仪表板,按年份显示一致性数据、每个模型的共识细分以及出版物分析(图4 (https://arxiv.org/html/2606.19630#S2.F4))。所有源代码均可在线获取\(Bank等人,2025b (https://arxiv.org/html/2606.19630#bib.bib1)\),一致性数据已存档于哈佛Dataverse\(Bank等人,2025a (https://arxiv.org/html/2606.19630#bib.bib2)\)。

参见图注图4:AI4SE/SE4AI探索者交互式网络应用,供读者将自己的相关性判断与人类和AI评估者进行对比。局限性。四个局限性限制了这些结果。首先,人类参考判断来自单一专家评估者,未进行内部评估者可靠性检查;因此,一致性统计量衡量的是与一位知情读者的对应程度,而非与共识性真值。其次,在标题和摘要层面的筛选基于一个假设:标题以及(如果有)摘要能忠实反映论文的内容。对于INSIGHT语料库(我们仅基于标题进行筛选的从业者杂志),这一假设最弱,因此其相关性判断完全取决于标题能否充分捕捉内容。对于SERC,我们可以直接检验这一假设:两种条件的比较(仅标题与标题+摘要)是我们实证检验——添加摘要后,专有模型的判断基本保持稳定(约6%的论文被重新分类),而本地模型则敏感得多(15–37%的论文被重新分类)——因此对于可靠的专有模型,摘要很少推翻标题层面的判断,而本地模型的波动性进一步表明它们在此任务上的不稳定性。第三,Cohen’s κ对类别流行率敏感,而相关文章在INSIGHT语料库(≈3%)和SERC语料库(≈16–18%)中的流行率差异显著,因此在跨语料库比较κ值时需谨慎。第四,引文影响力的比较受到期刊可见性和主题时效性的混淆:被引最多的达成一致的相关文章出现在高下载量的专刊中,主题也是快速发展的领域。

## 3 最初六年的三个阶段

基于作者们的观察,本文断言2020–2025年期间可划分为三个可识别的阶段,每个阶段都建立在上一阶段的基础上,并从概念架构发展到应用实验,最终到大语言模型转折点。这些阶段并非顺序替代,而是累积层——基础性工作在应用性工作继续深入的同时仍在进行,而LLM驱动的研究则在此基础上构建。图5 (https://arxiv.org/html/2606.19630#S3.F5)展示了INCOSE INSIGHT和SERC报告中相关出版物的轨迹。我们提出的三个活动阶段如下:

参见图注图5:按年份(2020年起)的共识AI相关出版物数量:INSIGHT(红色)和SERC(浅蓝色)\(系统工程研究中心,2025 (https://arxiv.org/html/2606.19630#bib.bib24)\)。阶段1:基础性(2020–2021年出现)。第一阶段确立了SE社群至今仍在使用的许多AI在SE中的概念性定义。McDermott等人(2020 (https://arxiv.org/html/2606.19630#bib.bib17))引入了AI4SE/SE4AI研究路线图,并荣获INCOSE 2020年度最佳文章奖。Madni(2020 (https://arxiv.org/html/2606.19630#bib.bib15))将AI重新定义为增强智能——增强而非替代——这已成为社群对AI在SE过程中作用的强烈共识。Rouse(2020 (https://arxiv.org/html/2606.19630#bib.bib23))阐述了一种称为“AI作为系统工程”的视角,设想AI认知助手能够理解并指导系统工程的概念和工作流程。Freeman(2020 (https://arxiv.org/html/2606.19630#bib.bib8))识别了测试与评估中的关键主题——

相似文章

AI 自动研究:路线图与用户指南

Hugging Face Daily Papers

本文调研了AI在整个研究生命周期中的能力与局限,从创意生成到成果发布,识别出可靠辅助与不可靠自主之间的明确界限。它提供了一个分类体系、基准测试套件、工具清单以及人类主导的AI协作研究设计原则。

AI科学与经济:系统图谱

Reddit r/artificial

本文认为,尽管AI在模式识别和假设生成方面表现出色,但科学和经济的进步需要与现实世界的接地互动以及制度执行,强调了人机协作的必要性。

BEAMS: AI在建模与仿真中的基准测试与评估

arXiv cs.AI

BEAMS倡议提出了一套基准测试集,用于评估建模与仿真中的AI工具,重点关注以人为本和负责任的AI实践。测试显示,基于LLM的引擎存在差异,在定性任务上的表现优于因果推理。

AutoResearch AI:迈向人工智能驱动的研究自动化以实现科学发现

arXiv cs.AI

本综述审视了人工智能驱动的研究自动化(AutoResearch)这一新兴领域,分析了AI系统如何从孤立的任务辅助转向完整的工作流级别的科学发现。它定义了从人类引导的‘Vibe Research’到AI主导系统的光谱,并提出了五个评估科学可信度的维度。