利用具备上下文学习能力的 LLM 进行算法理论物理研究

arXiv cs.LG 论文

摘要

本文探讨了利用大型语言模型(特别是 Claude)结合计算机代数系统(Maple)来执行理论物理中的算法计算,例如分析宇宙学扰动。

arXiv:2605.08212v1 公告类型:新文章 摘要:理论物理中的算法计算日益增多。这些计算虽然在概念上简单,但仍可能耗时,且包含不应被忽视的细微之处。鉴于大型语言模型(LLM)近期的性能提升,自然需要探究配备了计算机代数系统(CAS)运行时和充分信息上下文的 LLM 是否能够可靠地执行这些算法任务。在本研究中,我们将 Claude 与 Maple 接口连接,并将此框架应用于修正引力理论中的宇宙学扰动。我们展示了该方法的当前能力、典型失败案例以及如何加以改进。研究发现,提供已解决示例的前沿 LLM 能够解决大多数测试问题。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:05

# 利用大语言模型的上下文学习进行算法理论物理计算
来源: https://arxiv.org/html/2605.08212

###### 摘要

理论物理中的算法计算数量日益增多。这些计算虽然在概念上很简单,但仍可能非常耗时,并且包含不应被忽视的细微差别。鉴于大语言模型(LLM)近期的改进,自然要研究配备计算机代数系统(CAS)运行时和充分信息上下文的大语言模型是否能可靠地执行这些算法任务。在这项工作中,我们将 Claude 与 Maple 接口连接,并将该框架应用于修改引力理论中的宇宙学微扰。我们展示了这种方法当前的能力、典型的失败模式以及如何改进。我们发现,提供 worked examples(详细解题示例)的前沿大语言模型能够解决大多数测试问题。

IPMU26-0020

Anamaria Hell 和 Leander Thiele

Kavli IPMU (WPI),UTIAS,东京大学,以及数据驱动发现中心,日本千叶县柏市柏之叶 5-1-5,邮编 277-8583

## 1. 引言

理论物理学家在他们的研究中处理各种任务。在已被委托给数值和符号计算机程序的最机械式计算,与源于真正创造力的构建新理论的艺术之间,存在着一个广阔的“算法计算”领域。对此,我们的意思是那些足够复杂以至于无法用确定性计算机程序提供通用解决方案的任务,同时也并非难到需要全新的方法和思维方式来解决。通过举例来界定算法计算,我们指的是比计算机代数系统中的单个命令更复杂,但比发现 AdS-CFT 对应关系或爱因斯坦引力中的某些证明更简单的任务。这就留下了一片广阔的 computational 领域,其中存在通用的配方,但细节因问题而异,且某些细微之处可能需要特别小心。可重整化量子场论、弦论或有效场论中的微扰计算(如散射矩阵)就是典型的例子。对一般物理学家来说,经典电动力学中的典型问题或量子力学中的微扰理论更为熟悉。目前,即使有计算机代数系统(CAS)的帮助,此类算法计算仍占用许多理论物理学家的时间。同时,它们的相对简单性意味着利用智能体 AI 解决这些问题可能在能力范围内。这些问题的算法性质和频率意味着有大量可用的 worked examples,并且可以写下算法的抽象描述。在这项工作中,我们利用 worked examples 和算法描述进行上下文学习,并测试上下文中的哪些内容能优化成功率。因此,我们在这项工作中测试了一个前沿大语言模型的能力,该模型与 CAS 会话接口,并配备有信息丰富的上下文,以解决一类特定算法计算的问题:识别各种引力理论中宇宙学背景的度规自由度。宇宙学微扰,即时空和物质中的微小涟漪,导致了我们今天观察到的宇宙结构(Starobinsky,1979 (https://arxiv.org/html/2605.08212#bib.bib3); Mukhanov and Chibisov,1981 (https://arxiv.org/html/2605.08212#bib.bib4); Chibisov and Mukhanov,1982 (https://arxiv.org/html/2605.08212#bib.bib5); Kodama and Sasaki,1984 (https://arxiv.org/html/2605.08212#bib.bib6); Sasaki,1986 (https://arxiv.org/html/2605.08212#bib.bib7); Mukhanovet al.,1992 (https://arxiv.org/html/2605.08212#bib.bib8))。它们代表了理论的建筑模块——自由度,决定了理论的稳定性和观测后果。因此,识别它们至关重要,而在偏离爱因斯坦广义相对论时,这可能并非微不足道。为此目的,已经开发了多种方法,包括带有 Dirac-Bergmann 算法的哈密顿分析(Bergmann,1949 (https://arxiv.org/html/2605.08212#bib.bib9); Dirac,1950 (https://arxiv.org/html/2605.08212#bib.bib10); Anderson and Bergmann,1951 (https://arxiv.org/html/2605.08212#bib.bib11)),以及 Faddeev-Jackiw 方法(Faddeev and Jackiw,1988 (https://arxiv.org/html/2605.08212#bib.bib12)),还有拉格朗日形式体系(见 Hellet al.(2026 (https://arxiv.org/html/2605.08212#bib.bib14))中的通用处方及其参考文献),以及直接建立在运动方程基础上的更严格的数学方法(见 Heisenberg (2025 (https://arxiv.org/html/2605.08212#bib.bib13))及其参考文献)。在这项工作中,我们遵循 Hellet al.(2026 (https://arxiv.org/html/2605.08212#bib.bib14))中给出的处方,这允许在宇宙学微扰的背景下进行最简便和最直接的实现。为了进行严谨的研究,宇宙学微扰的算法计算具有一些明显的优势。很容易构建具有研究级复杂度的测试问题,且具有如此晦涩的特征,以至于它们不可能出现在 LLM 的训练集中。事实上,在我们的评估中,我们有时观察到 LLM 试图将任务与文献中更知名的问题联系起来。同时,这类问题有独特且易于检查的解决方案。我们的工作旨在确定理论物理学家在算法问题上能从自动化计算中受益多少。为此,我们回答以下问题:

1. 配备 CAS 运行时的前沿 LLM 目前的能力如何;
2. 应如何使用 LLM 的上下文;
3. 典型的失败模式是什么,如何缓解。

得益于受限的问题集和我们可用的专业知识,我们可以超越仅仅检查最终答案来理解 LLM 的解题策略,从而实现补充性的定性评估。这项工作的一个主要目标是制定实用的指南,指导从业者如何利用他们现有的 worked examples 作为有用的上下文,供 LLM 自主解决类似问题。正如我们在第 2 节(https://arxiv.org/html/2605.08212#S2)中所展示的那样,大多数配备符号计算工具的 LLM 工作都集中在数学上。与这些工作相比,我们较少关注模型在寻找证明策略方面的创造力,而更多关注其执行相对例行计算的能力,这些计算对人类物理学家来说仅仅是负担。然而,请注意,这些计算不一定容易,使用 CAS 也不保证正确性。这项工作的另一个不寻常方面是定义局部相关上下文的难度:某些操作需要考虑后续步骤(例如,如果天真地求解背景方程可能会产生根,这将在后续步骤中导致问题)。因此,算法理论物理是长上下文的一个有趣测试平台。本文的其余部分结构如下。在第 2 节(https://arxiv.org/html/2605.08212#S2)中,我们讨论将配备 CAS 的 LLM 应用于数学和物理问题的先前工作。在第 3 节(https://arxiv.org/html/2605.08212#S3)中,我们描述我们的设置、实验和评估策略。在第 4 节(https://arxiv.org/html/2605.08212#S4)中,我们总结定性及定量的结果。我们在第 5 节(https://arxiv.org/html/2605.08212#S5)中得出结论。

## 2. 相关工作

利用 LLM 响应中的结构可以追溯到思维链(Weiet al.,2023 (https://arxiv.org/html/2605.08212#bib.bib23))。这一理念的自然延伸是将模型与工具接口(e.g., Gaoet al.,2023 (https://arxiv.org/html/2605.08212#bib.bib15); Chenet al.,2023 (https://arxiv.org/html/2605.08212#bib.bib16))。这种工具辅助推理在数学中找到了广泛应用,这得益于 Lean 等程序提供的严格可验证性(e.g., Gouet al.,2024 (https://arxiv.org/html/2605.08212#bib.bib17); Khaitan and Ganesh,2025 (https://arxiv.org/html/2605.08212#bib.bib18); Breenet al.,2025 (https://arxiv.org/html/2605.08212#bib.bib20); Nezhadet al.,2026 (https://arxiv.org/html/2605.08212#bib.bib36); Luoet al.,2026 (https://arxiv.org/html/2605.08212#bib.bib37))。不出所料,工具使用被发现对更困难的问题特别有帮助(Daset al.,2024 (https://arxiv.org/html/2605.08212#bib.bib35))。与这项工作类似,上下文学习(e.g., Donget al.,2024 (https://arxiv.org/html/2605.08212#bib.bib22))已被研究作为一种提高 LLM 在数学问题中性能的方法(e.g., Liuet al.,2024 (https://arxiv.org/html/2605.08212#bib.bib21); Sultanet al.,2026 (https://arxiv.org/html/2605.08212#bib.bib19); Gaoet al.,2026 (https://arxiv.org/html/2605.08212#bib.bib27))。与明确微调的模型相比,带有有用上下文的一般用途模型更容易用于人机协作,并且如果工具中的功能(例如 Lean 策略)发生变化,它们可以更轻松地适应(Breenet al.,2025 (https://arxiv.org/html/2605.08212#bib.bib20))。在理论物理的背景下,使用 LLM 进行自动化问题解决的探索程度不如数学。部分原因可能是难以找到具有研究级别但易于评分的问题;最近已有努力构建此类基准(Chunget al.,2025 (https://arxiv.org/html/2605.08212#bib.bib28); Panet al.,2026 (https://arxiv.org/html/2605.08212#bib.bib32))并利用它们评估测试时间缩放(Gaoet al.,2025 (https://arxiv.org/html/2605.08212#bib.bib38))。这些工作发现,如果没有专用工具,当前前沿模型无法解决大多数研究级基准问题。一篇在精神上与我们工作相似的最近论文是 Menzoet al.(2026 (https://arxiv.org/html/2605.08212#bib.bib30)):他们让 LLM 使用专门的 Mathematica 包来计算费曼图。与我们的工作相比,他们的 LLM 在约束多得多的环境中运行:其唯一真正的决策是关于惯例的几个二元选择。我们的工作侧重于需要更多实际智力来制定计算策略并处理细微差别的问题。更为雄心勃勃的是,一些最近的工作(e.g., Agrawalet al.,2026 (https://arxiv.org/html/2605.08212#bib.bib31))试图让智能体执行理论物理研究的整个流程。其他人则认为这种方法不太可能成功(Luet al.,2026 (https://arxiv.org/html/2605.08212#bib.bib29))。我们并不旨在完全取代人类研究人员,因此将实验限制在算法理论物理问题上。类似于 Luet al.(2026 (https://arxiv.org/html/2605.08212#bib.bib29)),我们预计为 LLM 配备 CAS 可能是有用的。这项工作的主要目标之一是确定当前前沿模型能多好地利用上下文中提供的示例或其他信息。确实,有人指出长上下文会降低性能(e.g., Liet al.,2024 (https://arxiv.org/html/2605.08212#bib.bib40); Liuet al.,2023 (https://arxiv.org/html/2605.08212#bib.bib41); Jinet al.,2024 (https://arxiv.org/html/2605.08212#bib.bib42); Duet al.,2025 (https://arxiv.org/html/2605.08212#bib.bib43); Huanget al.,2024 (https://arxiv.org/html/2605.08212#bib.bib24)),即使是专门针对数学的(Liuet al.,2024 (https://arxiv.org/html/202605.08212#bib.bib21))。这些发现表明,一小套精心选择的示例问题(关于如何选择,例如 Yanget al.,2024 (https://arxiv.org/html/2605.08212#bib.bib39))应能优化性能。另一方面,Zouet al.(2025 (https://arxiv.org/html/2605.08212#bib.bib26))发现情况好坏参半,而 Agarwalet al.(2024 (https://arxiv.org/html/2605.08212#bib.bib25))指出,能力更强的现代前沿模型能够更好地处理更大的上下文。

## 3. 方法

在本节中,我们对所考虑的理论物理问题给予教学性介绍(第 3.1 节(https://arxiv.org/html/2605.08212#S3.SS1)),描述配备 CAS 运行时的 LLM 的实现(第 3.2 节(https://arxiv.org/html/2605.08212#S3.SS2)),列出测试问题(第 3.3 节(https://arxiv.org/html/2605.08212#S3.SS3)),描述我们的定量评估方法(第 3.4 节(https://arxiv.org/html/2605.08212#S3.SS4)),最后描述我们为 LLM 提供的不同上下文选择(第 3.5 节(https://arxiv.org/html/2605.08212#S3.SS5))。

### 3.1 自由度基础

一般来说,物理系统的自由度(dof)数量定义为完全确定运动方程柯西问题所需的初始条件数量除以二。例如,1+1 维空间中的自由粒子由拉格朗日量 $L = \frac{1}{2}\dot{q}^2$ 描述,其中点表示对时间的导数,$q$ 是广义坐标。通过对广义坐标变分相应的作用量 $S = \int dt L$,我们得到相应的运动方程 $\ddot{q} = 0$。为了完全确定柯西问题,我们需要确定两个初始条件——初始位置和速度 $q(t_0)$ 和 $\dot{q}(t_0)$——因此给出一个自由度。在量子场论和引力理论中,人们更常研究场的动力学。与自由粒子不同,此类对象还依赖于空间中的点,典型例子是标量场 $\phi(\vec{x}, t)$。从形式上讲,四维空间中标准自由规范标量场的理论具有无限多个自由度,因此当我们陈述这一点时,我们将指每时空点的数量。在平坦和宇宙学背景下,时空具有球对称性,这产生了三种根据空间旋转群分类的著名微扰类型:标量、矢量和张量模式。然而,如果我们考虑引力理论,除了物质之外的主要量是度规张量 $g_{\mu\nu}$,并非其所有分量都是物理自由度。例如,广义相对论有两个自由度而不是十个,十个对应于度规张量的所有分量,这意味着其余分量不传播。虽然有很多方法可以证明这一点,但在这项工作中,我们仅关注基于特定背景的微扰二次作用的拉格朗日公式,并根据 (Hellet al.,2026 (https://arxiv.org/html/2605.08212#bib.bib14)) 中描述的步骤确定物理模式。

### 3.2 实现

我们的实验设置相对简单:上下文和问题表述通过 LLM 的 API 输入,产生 CAS 命令在本地执行的读取-求值-打印循环(REPL)运行时中执行,CAS 结果附加到消息历史记录并通过 API 发回,如此循环直到 LLM 决定找到解决方案(或中止)。我们选择使用单个智能体,因为所考虑的计算相对线性,我们预计多智能体环境不会带来实质性改进。我们直接调用 API 而不是依赖现成的 SDK(例如 Claude Code),因为可复现的模型能力对我们的实验很重要。我们选择使用固定且通常经过速率...

相似文章

科学概念的计算概念史:从早期数字方法到大语言模型

arXiv cs.CL

本文将大语言模型置于科学史、科学哲学与科学社会学(HPSS)领域概念分析计算方法的宏观历史背景之中,系统回顾了词汇语义变化检测的方法论挑战与基于大语言模型的案例研究,涵盖前大语言模型时代与大语言模型时代工作流程中的语料库构建、操作化及评估方法。

大型语言模型能否重塑基础算法?

Hugging Face Daily Papers

# 论文页面 - 大型语言模型能否重塑基础算法? 来源:[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后,它们还能从零重塑 Dijkstra、Euclid 等基础算法吗?** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域:先用“反学习”把目标算法从模型中抹去,再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。

大型语言模型是否适用于图计算?进展与展望

arXiv cs.CL

本综述回顾了大型语言模型在图计算中的应用,将其分为两种范式:LLM作为执行器和LLM作为规划器。研究发现,LLM在简单任务上表现良好,但在大规模精确计算方面不可靠,并提出了未来方向。

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。

将量子算子与大语言模型对齐

Hugging Face Daily Papers

本文介绍了一种将幺正算子映射到大语言模型潜在空间的方法,实现了量子电路合成以及语言条件化的门约束指定,并在Clifford+T电路合成上取得了与现有方法相竞争的结果。