不是语言模型,而是工具:面向科学工作流的确定性中介

arXiv cs.AI 论文

摘要

本文提出了类型化中介(typed mediation),即语言模型编排确定性工具而非生成分析代码,从而确保多次再生输出一致。在光致发光分析上的评估表明,该模式在多次运行中实现了完美的可重复性,而商业基础模型则无法做到。该模式已成功部署于实际仪器中。

arXiv:2605.13245v1 公告类型:新 摘要:语言模型可以生成令人信服的科学分析,但针对同一数据的重复生成并不能保证相同的结果。研究人员可能会再次生成相同的查询,却得到不同的拟合结果、不同的峰值位置或不同的分析流程,且没有明确的方法判断哪个输出可信。我们提出类型化中介(typed mediation),这是一种让模型编排确定性工具而非生成分析代码的模式。每个工具通过结构化访谈迁移而来,编码了一位研究人员针对某一仪器的精确流程。模型选择调用哪个工具及其参数,工具产生结果,再生不会改变结果。我们通过在四个平台上运行相同的光致发光分析来评估这一主张,包括三个商业基础模型,每个模型使用相同提示重复运行四次。类型化工具在所有运行中产生相同的结果。而商业平台要么在数值输出和分析方法上存在运行间差异,要么无法成功完成任务。我们已将这一模式部署在两台仪器上,为用户服务约六个月,用户反馈非常积极。这两个案例都非常具有挑战性:它们涉及专有二进制格式和按席位授权的软件,这迫使工具必须与数据和所操作的仪器一起保留在本地基础设施上。我们认为部署拓扑不仅仅是一种偏好,而是科学工具中介的结构性要求。最终,我们提出了一种实用的模式,用于在要求可重复性的科学工作流中部署语言模型,将分析时间从几周缩短到几分钟,同时保证各次运行输出完全相同。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:15

# 关键在于工具而非语言模型:面向科学工作流的确定性中介

**来源:** https://arxiv.org/html/2605.13245

**Marios Adamidis**
克里特大学材料科学与技术系,希腊赫拉克利翁
FORTH电子结构与激光研究所,希腊赫拉克利翁

**Danae Katrisioti**
克里特大学材料科学与技术系,希腊赫拉克利翁
FORTH电子结构与激光研究所,希腊赫拉克利翁

**Yannis Tzitzikas**
克里特大学计算机科学系,希腊赫拉克利翁
FORTH计算机科学研究所,希腊赫拉克利翁

**Emmanuel Stratakis**
FORTH电子结构与激光研究所,希腊赫拉克利翁
克里特大学物理系,希腊赫拉克利翁

*(2026年5月13日)*

###### 摘要

语言模型能够生成令人信服的科学分析结果,但对同一数据重复生成并不能保证结果一致。研究者可能会重新生成相同的查询,但得到不同的拟合结果、不同的峰值位置或不同的分析流程,却无法确定哪种输出值得信赖。我们提出了**类型化中介**模式,该模式下模型编排确定性工具而非生成分析代码。每个工具通过结构化访谈编码了一位研究者针对特定仪器的精确操作流程。模型负责选择调用哪个工具以及使用何种参数。工具则负责产生结果。重新生成不会改变结果。通过在四个平台(包括三个商业基础模型)上,使用相同提示词对同一光致发光分析任务各运行四次,我们对该主张进行了评估。类型化工具在所有运行中均产生相同的结果。而商业平台要么在不同运行中存在数值输出和分析方法上的差异,要么无法在该任务上产生有效结果。我们将该模式部署于两台仪器上,为用户服务约六个月,获得了非常积极的用户反馈。这两个案例均极具挑战性:它们涉及专有二进制格式和按席位授权的软件,这迫使工具必须与数据及其所操作的仪器一同保留在本地基础设施上。我们认为,部署拓扑结构并非仅仅是偏好问题,而是科学工具中介的结构性要求。最终形成了一种在必须保证可重复性的科学工作流中部署语言模型的实用模式,能将分析时间从数周缩短至数分钟,同时保证各次运行的输出结果完全相同。

## 1 引言

**动机:可重复性优先。** 语言模型融入实验数据分析的趋势正在加速,随之而来的是人们默认模型的输出足够可靠,可以据此采取行动。例如,设想一位研究者在经过漫长一天的测量后,回到笔记本电脑前,准备分析一个杂乱的光致发光光谱文件¹¹¹光致发光光谱记录材料在光激发后发射的光,以波长为函数。这是半导体物理学中的一种标准表征技术。。研究者将文件上传给他们多次使用过且认为效率高、能产出合格结果的AI助手。模型通过代码执行处理文件,并迅速得出了一个看起来精心制作且条理清晰的结果。从峰值拟合到图表和分析,输出结果印证了研究者的辛勤工作。只有一个简单的问题:研究者忘记粘贴正确的测量标签,因此他们编辑了查询并按下重新生成按钮。这一次,峰值位置偏移了2 eV,拟合结果也略有不同。两个答案都没有明显错误。在周四晚上9点,研究者有什么原则性的方法可以遵循呢?一个重要观察是,这种失败**并不会因为使用更强大的模型而消失**。

模型对项目语义的理解受限于一个通用系统提示词,并非针对任何特定研究者的工作流而定制。模型的能力足以持续生成令人信服的结果。但它无法做到的是,两次产生相同的结果。差距在于确定性,而更强的模型能力并不能提供这一点[9 (https://arxiv.org/html/2605.13245#bib.bib1)]。在科学中,可重复性不是奢侈品;它是区分真实发现与仅凭声称的标准。这个普遍问题也体现在学术研究和医学领域对智能体的低采纳率上,如Anthropic最近的报告所示,其实际部署率仅为个位数[12 (https://arxiv.org/html/2605.13245#bib.bib7)]。这些领域在AI集成潜力方面已进行了大量研究,但缺乏技术知识,再加上“模型本身已足够强大”的市场压力,使得缺乏支持的研究者难以从零样本提示过渡到经过任务强化、专门化的工具框架[11 (https://arxiv.org/html/2605.13245#bib.bib14)]。

**动机:隐私需求。** 交互过程还引发了隐私问题。许多类型的实验室数据在人眼看来外观一致,这削弱了研究者对将与云服务提供商共享内容的警惕性。包含糟糕测量的文件与可能导向重要发表的文件夹看起来几乎无法区分。将原始数据和结果与云服务提供商共享,会造成非零概率,即这些数据会在特定领域塑造下一个检查点的性能[2 (https://arxiv.org/html/2605.13245#bib.bib13)]。与从网络提取的琐碎信息相比,前沿科学产出在后续训练轮次中被视为有价值的可能性更高。

参见图注
图1:三种科学数据分析方法。所有情况下的数据收集过程相同。(a) 传统方法:研究者手动操作分析软件。(b) LLM辅助:模型生成分析代码,每次运行产生不同结果。(c) 类型化中介(本文提出):模型编排一个确定性类型化工具,该工具在本地基础设施上编码了研究者的精确工作流。

**方法。** 为应对上述可重复性和隐私需求,我们提出了一种利用模型的替代方法。具体而言,我们建议将研究者的精确手动任务编码到一个工具表面之后。然后由模型进行编排。随后,该工具产生确定性的结果,这些结果可在重新生成时复现。通过这种方式,验证变得迅速,模型的推理能力可以投入到工作中真正需要它的部分。图1 (https://arxiv.org/html/2605.13245#S1.F1)给出了所提出方法的概览。左侧是传统方法,依赖于特定软件和手动操作。中间是当前趋势,即使用LLM进行分析,但由于LLM是随机运行的,其输出会变化,因此产生不可重复的结果。右侧展示了我们的方案,即**同时利用**现有软件和LLM来获得可重复的结果。可以说,我们以一种对语言模型友好的方式“封装”了现有软件,使其能够编排确定性工作流。这引出了本文要解决的关键问题:当工作流存在于工具中而非模型中时,模型的选择有多重要?图2 (https://arxiv.org/html/2605.13245#S1.F2)给出了更精细的说明。

参见图注
图2:类型化中介架构。模型通过类型化模式编排工具调用。该工具编码了科学家的工作流,并在本地基础设施上驱动授权软件。

**评估。** 我们已将这种方法实现为一个名为FORTHought的平台,并在一个研究中心部署,该平台已被十一位研究者用于多种仪器工作流,为期六个月。用户反馈极为正面,FORTHought已成为他们日常工作的一部分。在本文中,我们将重点关注:(a) 两个记录在案、影响最大的部署案例:一个光致发光分析流程和一个扫描电子显微镜工作流;(b) 对**可重复性**的评估,方法是在我们的平台和三个商业基础模型上,使用相同的提示词和数据,对同一光致发光分析任务各运行四次。

**贡献。** 总之,我们的工作有四个主要贡献:
1. 我们描述了一种**类型化中介模式**,在该模式中,人类和语言模型都通过相同的类型化接口与实验室软件交互,将工作流的确定性核心置于工具中而非模型中,
2. 我们展示了**两个真实应用**案例,这些案例是通过与拥有工作流的研究者进行结构化访谈会话而移植的,已部署并正在被研究者积极使用,他们能快速验证输出并将修正反馈回工具中,
3. 我们通过在四个平台上各运行四次相同的分析来评估**可重复性**,结果表明类型化工具在多次运行中产生相同的结果,而代码生成方法在输出和分析方法上均存在差异,
4. 我们认为,**部署拓扑结构**是科学工具中介的结构性需求,这既源于隐私问题,也源于大多数实验室软件的许可限制,这两者共同迫使工具与数据及其所操作的仪器共存。

本文其余部分组织如下。第2节 (https://arxiv.org/html/2605.13245#S2)讨论相关工作。第3节 (https://arxiv.org/html/2605.13245#S3)描述我们的方法,即类型化中介模式。第4节 (https://arxiv.org/html/2605.13245#S4)介绍两个部署案例。第5节 (https://arxiv.org/html/2605.13245#S5)评估跨平台的可重复性。第6节 (https://arxiv.org/html/2605.13245#S6)总结并展望未来方向。

## 2 相关工作与创新点

已部署的实验室智能体仍然稀少。Hellert等人报道了一个在同步辐射用户设施的产线部署,其中一个智能体框架管理着超过23万个控制通道的实时操作[10 (https://arxiv.org/html/2605.13245#bib.bib3)]。Vriza等人在一个国家X射线纳米探针设施评估了代码生成智能体,发现同一任务在不同模型上的表现差异显著[15 (https://arxiv.org/html/2605.13245#bib.bib4)]。Xie等人展示了LLM驱动的扫描光电流显微镜控制,说明了代码生成方法在仪器自动化方面的潜力和脆弱性[17 (https://arxiv.org/html/2605.13245#bib.bib19)]。Cissé等人测试了五个推理模型作为科学优化器,每个模型重复运行20次,观察到单个模型可能产生低于其自身平均性能一半的异常结果[3 (https://arxiv.org/html/2605.13245#bib.bib5)]。Cui和Alexander在相同数据分析任务上,通过六个模型进行了480次尝试,发现即使是在相同配置下,分析结果也存在显著差异[4 (https://arxiv.org/html/2605.13245#bib.bib15)]。这些结果证实,模型内方差是代码生成方法的结构性属性,而非任何特定模型的失败。

工具中介架构通过将模型限制在经过验证的工具调用来解决这个问题。Yang等人报告,在最高采样温度下,三个模型的工具选择一致性达到100%[19 (https://arxiv.org/html/2605.13245#bib.bib8)]。Xu等人将模型限制为仅进行路由决策时,实现了100%的规范级可重复性[18 (https://arxiv.org/html/2605.13245#bib.bib9)]。Pan等人展示了基于MCP的工具中介进入国家实验室规模的科学网络基础设施[13 (https://arxiv.org/html/2605.13245#bib.bib6)]。Strickland等人将这一原则形式化为模式门控编排,即任何操作必须通过机器可检查规范的验证才能执行[14 (https://arxiv.org/html/2605.13245#bib.bib10)]。Doshi等人提议用能力、机密性和信任的结构化标签扩展MCP,从而在工具边界实现安全约束的确定性强制[7 (https://arxiv.org/html/2605.13245#bib.bib11)]。Deng等人提出了一个以技能为中心的框架,用于十大类精密仪器的自主操作,其中可复用的操作和分析技能将物理样本处理与科学解释连接起来[5 (https://arxiv.org/html/2605.13245#bib.bib18)]。

我们的贡献是操作性的而非架构性的。我们采纳了模式门控原则,并将其应用于一个这些系统都未曾解决的具体问题:将一位研究者的精确手动工作流(通过结构化访谈提取)编码为一个可供任何模型编排的类型化工具。

## 3 FORTHought方法

首先,我们需要澄清术语。关键概念、其术语及描述见表1 (https://arxiv.org/html/2605.13245#S3.T1)。建议读者先阅读此表以避免歧义。

表1:FORTHought关键术语

我们可以将整个方法总结如下:每个**类型化工具**编码了通过**结构化访谈**从研究者处提取的**工作流规范**,**封装**了**现有授权软件**的操作,并通过MCP**暴露给模型**。一个按仪器划分的**技能**文件告诉模型哪些工具可用,以及研究者期望如何处理结果。模型调用工具,工具驱动软件。

### 3.1 类型化中介

**类型化中介。** 我们使用术语“类型化中介”来指代这样一种模式:语言模型本身不执行分析,而是通过一个类型化模式选择并调用一个编码了研究者精确操作流程的确定性工具。

**确定性。** 类型化中介将一个确定性工具置于研究者原先手动使用的软件和模型之间。一个系统提示词和一个附带的针对实验的`Skill.MD`文件定义了模型在与用户请求相关的任务中的适当行为。技能文件示例见附录A (https://arxiv.org/html/2605.13245#A1)。模型将决定执行哪个工具以及使用什么参数作为输入。然后,该工具将精确结果返回给模型,而模型被指示仅对结果进行服务或推理。此接口遵循模型上下文协议[1 (https://arxiv.org/html/2605.13245#bib.bib2)],这是一个开放标准,通过一个指定其输入、输出和执行要求的类型化模式来暴露每个工具。该工具并非作为通用API封装器。它编码了一位研究者针对特定仪器或实验的精确操作流程,例如他们使用的去尖峰参数、拟合的光谱窗口以及进行积分的峰值边界。简而言之,模型选择调用哪个工具,而工具本身已经知道如何完成工作。

**架构概览。** 图2 (https://arxiv.org/html/2605.13245#S1.F2)总结了类型化中介架构。模型在类型化接口之上运行,并且是可替换的。工具位于其下,与授权软件和仪器锚定在同一台机器上。

**为何需要类型化中介。** 根据设计,语言模型是随机的,这既是诅咒也是祝福。它使得模型在需要逐字回忆往往会失败的领域显得具有创造性和活力。但在科学分析等应用中,所使用的方法直接影

相似文章

超越API:探究MLLMs在物理工具使用中的极限

arXiv cs.CL

本文介绍了PhysTool-Bench,一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现,即使是最佳模型也只能识别58.7%的工具,并仅完成21.0%的端到端查询,揭示了感知和功能常识两个层面的缺陷。