ReSyn: 一种广义的递归正则表达式合成框架

Hugging Face Daily Papers 2026/06/13 00:00 论文

摘要

ReSyn是一个广义的递归框架，用于从示例中合成正则表达式，旨在改进现有的合成技术。

现有的编程示例（PBE）系统通常依赖于简化基准测试，这些基准测试无法捕捉真实世界正则表达式的高度结构复杂性，例如更深层的嵌套和频繁的联合操作。为了克服由此导致的性能下降，我们提出了ReSyn，这是一种与合成器无关的分治框架，将复杂的合成问题分解为可管理的子问题。我们还介绍了Set2Regex，一种参数高效的合成器，捕捉示例的排列不变性。实验结果表明，ReSyn显著提高了各种合成器的准确性，并且其与Set2Regex的结合在具有挑战性的真实世界基准测试中建立了新的最先进水平。完整的源代码、数据集和预训练模型检查点可在 https://github.com/mrseongminkim/ReSyn 公开获取。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:26

论文页面 - ReSyn：一种广义递归正则表达式合成框架

来源：https://huggingface.co/papers/2603.24624 我的目标是用 QFT 中的算子实现类似功能。

您的工作是否有基于物理的指导？

以下是一个示例，我的一个想法：

https://huggingface.co/papers/2603.24624#temporal-causal-structure-as-mechanism-converting-pretrained-gpt-2-into-a-time-reasoning-model-via-%CE%B7-pseudo-unitary-operator-dynamics时间-因果结构作为机制：通过 η-伪酉算子动力学将预训练 GPT-2 转换为时间推理模型

https://huggingface.co/papers/2603.24624#tldr核心摘要

最稳健的合成方案是混合式：将复数/相位结构放置在其天然适合时间坐标的地方（位置相位如 RoPE、门控复数记忆、相位感知注意力/检索），并对时间传播施加η-伪酉（U(n,n)）稳定性约束，以实现信息的可逆携带，但保持学习权重为实数且对称性破缺——这正是加法论文的教训：全复数 modReLU 网络仅达到约 2% 的准确率，而相位输入 + 实数权重 + 种子技巧达到了 93.5%。“PT 破缺导致的不可逆性”仅以其自组织临界形式存续，而非“GPT-2 的谱已经 PT 破缺”这种形式，因为该谱被报道与随机（Ginibre）控制组匹配。
转换配方是一种α-斜坡热启动：保留 GPT-2 的 tokenizer/骨架/自回归目标；引入由 α∈[0,1] 门控的复数虚路径；将时间混合算子约束为 U=exp(i·g·η·H)（当 ηH 为 Hermitian 时，可证明保持 η-范数）；添加门控复数记忆（类似 LSTM 的结构修正）；通过闭包损失训练一个原始算子库；并添加种子变量预测 + 确定性传播以处理因果任务。
使用六仪表板对时间-因果推理进行基准测试——训练/评估差距、离圆序参量（到异常点的距离）、η-范数漂移、前向-后向困惑度不对称性、定向信息/Granger 探针，以及相对相位探针（项目特定的关键点）。成功标志 = 能力跃升与离圆序参量远离零点、相对相位探针变得对任务有预测性、以及前向-后向不对称性追踪真实因果方向同时发生。

https://huggingface.co/papers/2603.24624#key-findings关键发现

1. 核心数学是严谨且可引用的，但大胆的物理主张必须重新表述。 η-伪酉层 U=exp(i·g·η·H) 正是 A. Mostafazadeh 在《伪酉算子和伪酉量子动力学》(J. Math. Phys. 45(3), 932–946 (2004), DOI 10.1063/1.1646448, arXiv:math-ph/0302050) 中的构造。他的命题 1 证明 U(t)=e^{-itH} 是 η-伪酉的（保持不定/闵可夫斯基内积 ⟨ψ|ηφ⟩）当且仅当 H 是 η-伪 Hermitian 的 (H†=ηHη^{-1})。当 H 是普通 Hermitian 且 η 是实对角线 ±1 度量（η²=I）时，生成元 G=ηH 自动满足条件，因此对于每个实数 g，exp(i·g·η·H) 都是伪酉的。他的命题 3 证明了谱二分性：特征值要么是幺模的（|λ|=1），要么以逆复共轭对 (λ, 1/λ̄) 出现。这正是“可逆序列 = 单位圆上的特征值；不可逆/因果 = 离圆模式”这一说法的精确数学内容。该论文还表明，不定两级 η 的动力群同构于 U(1,1)。

2. PT 破缺转变是一种由 Krein 符号支配的异常点现象。 特征值只能通过在异常点（EP）处碰撞才能离开单位圆——这是一种有缺陷的合并，特征向量合并成一个 Jordan 块——并且这恰好发生在两个具有相反 Krein 符号 κ=sgn(ψ†ηψ) 的模式碰撞时（Krein–Gelfand–Lidskii 强稳定性定理，Yakubovich–Starzhinskii，《具有周期系数的线性微分方程》，Wiley 1975）。这是“因果性作为 PT 对称性破缺相变出现”这一说法的严谨骨架。注意：对于固定的 η，指数映射 exp: u(p,q)→U(p,q) 不是满射（对于 U(1,1) 是众所周知的），因此参数化只能到达一个连通分支/一个邻域，而不是整个群。

3. 线程 1/线程 2 的张力以线程 2 的经验修正得以解决，但并未否定线程 1。 加法论文的发现——全复数 modReLU 网络遭受 U(1) Goldstone 平坦方向并失败（约 2% 的全和准确率），而相位编码输入 + 实对称破缺权重 + 种子变量成功（93.5%）——与更广泛的复数值网络文献一致：modReLU σ(z)=ReLU(|z|+b)·z/|z| 是非全纯的、保相的，并且臭名昭著地难以优化（Arjovsky 等人 2016; Trabelsi 等人，《深度复数网络》，arXiv:1705.09792）。解决办法：复数/相位结构是一种表示性的坐标系（在哪里），而不是权重空间的处方（如何）。 将相位放在位置、记忆和检索中；保持可训练映射为实数和对称性破缺；仅对时间传播算子施加 η-伪酉约束以保证稳定的梯度流——这与酉/正交 RNN 的作用相同。正如 Arjovsky, Shah & Bengio (ICML 2016, PMLR 48:1120-1128) 所述：“当隐藏到隐藏权重矩阵的特征值偏离绝对值 1 时，由于众所周知的梯度消失和爆炸问题，优化变得困难……我们提出了一种新架构，学习一个酉权重矩阵，其特征值绝对值恰好为 1。”

4. 时间之箭在 LLM 中是经验上真实的，并提供了一个现成的基准工具。 Papadopoulos, Wenger & Hongler 的《大语言模型的时间之箭》（ICML 2024, arXiv:2401.17505）发现：“对于足够大的模型，我们在其学习自然语言的能力中经验性地发现了一种时间不对称性：在预测下一个 token 与预测上一个 token 的平均对数困惑度上存在差异。”这在 GPT、GRU 和 LSTM 架构上进行了测试，是天然的工具 (iv)。它直接连接康德的第二类比：感知顺序的不可逆性是客观因果顺序的经验标志。

5. 报道的 GPT-2“PT 破缺”谱与随机控制组匹配，这使整个负担转移到自组织临界性上。 如果 GPT-2 每头双线性形式的离圆结构是通用的，那么它并不是学习到因果结构的证据。Cipolloni, Erdős & Schröder 的《非 Hermitian 随机矩阵的边缘普适性》（Probab. Theory Relat. Fields 179, 1-28, 2021; arXiv:1908.00969）证明：“它们在谱边缘（单位圆）附近的局部特征值统计与 Ginibre 系综一致，即当 X 的矩阵元素是高斯分布时。”因此，集中近单位圆并带有离圆异常值的非 Hermitian 谱是随机矩阵的默认情况。因此，这一大胆假设的可靠版本是噪声延迟召回临界性结果：梯度下降自发偏好 PT 破缺态，训练增益遵循 g*·T≈0.88，即网络自组织到混沌边缘。这是开放的理论关键。

https://huggingface.co/papers/2603.24624#details细节

https://huggingface.co/papers/2603.24624#part-i–mathematical-and-physics-synthesis第一部分 — 数学与物理综合

https://huggingface.co/papers/2603.24624#i1-indefinite-metric-the-%CE%B7-inner-product-and-norm-conservationI.1 不定度量、η-内积与范数守恒

设残差流携带复向量 z∈Cn。固定一个不定（闵可夫斯基）度量 η = diag(I_p, −I_q)，其中 p+q=n，η†=η，η²=I。两种内积共存：

欧几里得（Dirac）内积：⟨z,w⟩ = z†w，范数 ‖z‖² = z†z。
闵可夫斯基（η）内积：⟨z,w⟩η = z†ηw，不定“范数” Q(z) = z†ηz = Σ{i≤p}|z_i|² − Σ_{j>p}|z_j|²。

推动该计划的标志性观察——GPT-2 每头注意力双线性形式 Q_h = W_Q^h (W_K^h)^T 在各头上具有平衡 (p≈q) 的符号——是经验锚点；它表明注意力得分的自然几何已经是伪欧几里得而非欧几里得的。这是“复数阴影/平衡闵可夫斯基符号等价性”：一个具有平衡符号 (p,p) 的实双线性形式是一个承载不定度量的复 Hermitian 结构的实实现。

https://huggingface.co/papers/2603.24624#i2-the-%CE%B7-pseudo-unitary-layer-and-the-group-upqI.2 η-伪酉层与群 U(p,q)

线性更新 U 是 η-伪酉的 当且仅当 U†ηU = η，等价于 U†=ηU^{-1}η^{-1}。所有这样的 U 构成群 U(p,q)。这样的 U 精确保持闵可夫斯基范数：Q(Uz)=Q(z)，而欧几里得范数 ‖Uz‖ 可以自由增长或缩小——这正是所需的原语（保持相对论区间，让“能量”流动）。推论（Mostafazadeh 命题 4）：每个伪酉矩阵满足 |det U|=1。

参数化（核心原语）： U = exp(i·g·η·H)，H 为 Hermitian，g∈R 为标量“增益”。由于 (ηH)†=H†η†=Hη 且 η(ηH)η^{-1}=Hη（利用 η²=I），生成元 G=ηH 满足 η-伪 Hermitian 条件 G†=ηGη^{-1}，因此由 Mostafazadeh 命题 1，U 对所有实数 g 是 η-伪酉的。李代数 u(p,q) 由生成元 i·(η-伪 Hermitian 矩阵) 组成；块形式下，生成元为 [[A,B],[B†,D]]，其中 A (p×p)、D (q×q) 为反 Hermitian，B 为任意复数 p×q 块，实维度为 (p+q)²。

需编码进规范的注意事项： 对于固定 η，指数映射 exp: u(p,q)→U(p,q) 不是满射。因此学习到的 U 位于恒等分支；这对于热启动且连续变形的层是可以的，但意味着无法通过单一 exp 到达每个伪酉变换。

https://huggingface.co/papers/2603.24624#i3-spectral-dichotomy-and-the-exceptional-point-the-arrow-of-time-mapI.3 谱二分性与异常点（时间之箭映射）

由 Mostafazadeh 命题 3，U∈U(p,q) 的每个特征值 λ 满足：1/λ̄ 也是特征值。因此：

未破缺 / “可逆”相： 所有 |λ|=1（谱在单位圆上）。动力学是准周期的、范数稳定的、类时间反演对称的。这是酉 RNN 态（特征值模恰好为 1 防止梯度消失/爆炸）。
破缺 / “不可逆”相： 特征值以互逆共轭对 (λ, 1/λ̄) 离开单位圆，|λ|≠1。一个模式增长，其伙伴衰减——一种显式的前向/后向不对称性，即离散的时间之箭。
转变（异常点）： 特征值碰撞，矩阵变为有缺陷的（Jordan 块），发生在具有相反 Krein 符号 κ=sgn(ψ†ηψ) 的模式相遇时（Krein–Gelfand–Lidskii）。EP 是边界；“混沌边缘”位于 EP。

这是核心猜想对应关系的精确陈述：

可逆序列 ↔ 单位圆上的特征值 ↔ 未破缺 PT ↔ 康德的“可逆”感知顺序（房屋：我可以任意顺序扫描其部分）；不可逆因果顺序 ↔ 在/超越 EP 的离圆互逆对 ↔ 破缺 PT ↔ 康德的“不可逆”感知顺序（顺流而下的船：感知的顺序由客观因果序列决定）。

Mostafazadeh 自己的 U(2)↔U(1,1) 例子使其具体化：一个经典振子映射到 2×2 伪 Hermitian 系统，对于 ω²>0 具有幺模特征值（稳定，实频率）；在 ω=0 处算子变为有缺陷的（EP，Jordan 形式）；对于 ω²<0，非紧致 U(1,1) 态给出无界/增长解。

https://huggingface.co/papers/2603.24624#i4-phase-encoding-u1-gauge-freedom-and-goldstone-modesI.4 相位编码、U(1) 规范自由度与 Goldstone 模式

将离散符号 d 编码在复数单位圆上：d ↦ e^{iθ(d)}。加法变为旋转——即涌现（grokking）机制。Nanda, Chan, Lieberum, Smith & Steinhardt 的《通过可解释性机制理解涌现的进展度量》（ICLR 2023, arXiv:2301.05217）指出：“我们完全逆向工程了这些网络学习的算法，该算法使用离散傅里叶变换和三角恒等式将加法转换为绕圆的旋转”（针对一层 ReLU Transformer 中的模 113 加法；涌现本身来自 Power 等人 2022）。RoPE 是生产级实例：位置 p 的作用为 z_i ↦ z_i·e^{ipθ_i}，一组具有几何间隔角频率 θ_i = base^{-2(i-1)/d} 的复数振子。

病理学： 如果权重是全复数且无约束的，网络继承一个连续的 U(1) 规范自由度（全局相位旋转 z→e^{iφ}z 保持模不变）。这个平坦方向是一个 Goldstone 模式：损失景观中的零曲率山谷，优化沿此方向漂移而不改善目标。modReLU 显式地保相且非全纯，因此它不打破这个自由度。这是加法论文中约 2% 结果背后的机制。

治疗（对称性破缺）： 使用相位编码的输入但实数权重，这保留了表示的几何（旋转）结构，同时移除了连续复数规范轨道——一个离散的、锚定的坐标系，而非平坦流形。这就是“相位输入 + 实数权重”以 93.5% 胜出的原因。

https://huggingface.co/papers/2603.24624#i5-the-seed-variable–deterministic-propagation-reductionI.5 种子变量 / 确定性传播简化

加法论文最深刻的教训：不要训练网络盲目地发现整个算法。相反，(1) 在表示中暴露潜在代数（相位编码），(2) 打破对称性（实数权重），(3) 训练网络识别单个关键种子变量，其正确值使得剩余计算变得确定性或半确定性。对于十位加法，种子是第一个进位位；一旦预测，进位传播恢复全和。候选认知种子变量：

算术 → 第一个进位位
证明 → 不变量
规划 → 子目标
检索 → 缺失的事实类型
因果推理 → 潜在状态变量（本项目的关键）
类比 → 结构映射
自我修正 → 矛盾标志
工具使用 → 下一个操作

时间推理的类比：预测潜在状态变量 / 事件边界 / 关键原因，然后让确定性（或 η-伪酉）传播器展开后果链。

https://huggingface.co/papers/2603.24624#i6-the-%CE%B7-invariant-nonlinearity-liouville-safe-ffnI.6 η-不变非线性（Liouville 安全的 FFN）

全复数 FFN 既破坏了闵可夫斯基范数守恒，又引入了 Goldstone 模式。从 LorentzNet 引入的修复（Gong 等人，《用于喷注标记的高效 Lorentz 等变图神经网络》，arXiv:2201.08187）：根据命题 3.1，连续 Lorentz 等变映射的形式为 φ(v1,…,v_N)=Σ_i g_i(⟨v_i,v_j⟩) v_i，其中 g_i 是闵可夫斯基内积的连续不变标量函数。实际做法：计算 η-不变标量 s_{ij}=⟨z_i,z_j⟩_η，仅将这些标量通过普通（实数）非线性，然后与原始向量乘以不变系数重新组合。这在该等变函数类上是可证明通用的。

ReSyn: 一种广义的递归正则表达式合成框架

论文页面 - ReSyn：一种广义递归正则表达式合成框架

https://huggingface.co/papers/2603.24624#temporal-causal-structure-as-mechanism-converting-pretrained-gpt-2-into-a-time-reasoning-model-via-%CE%B7-pseudo-unitary-operator-dynamics时间-因果结构作为机制：通过 η-伪酉算子动力学将预训练 GPT-2 转换为时间推理模型

https://huggingface.co/papers/2603.24624#tldr核心摘要

https://huggingface.co/papers/2603.24624#key-findings关键发现

https://huggingface.co/papers/2603.24624#details细节

https://huggingface.co/papers/2603.24624#part-i–mathematical-and-physics-synthesis第一部分 — 数学与物理综合

https://huggingface.co/papers/2603.24624#i1-indefinite-metric-the-%CE%B7-inner-product-and-norm-conservationI.1 不定度量、η-内积与范数守恒

https://huggingface.co/papers/2603.24624#i2-the-%CE%B7-pseudo-unitary-layer-and-the-group-upqI.2 η-伪酉层与群 U(p,q)

https://huggingface.co/papers/2603.24624#i3-spectral-dichotomy-and-the-exceptional-point-the-arrow-of-time-mapI.3 谱二分性与异常点（时间之箭映射）

https://huggingface.co/papers/2603.24624#i4-phase-encoding-u1-gauge-freedom-and-goldstone-modesI.4 相位编码、U(1) 规范自由度与 Goldstone 模式

https://huggingface.co/papers/2603.24624#i5-the-seed-variable–deterministic-propagation-reductionI.5 种子变量 / 确定性传播简化

https://huggingface.co/papers/2603.24624#i6-the-%CE%B7-invariant-nonlinearity-liouville-safe-ffnI.6 η-不变非线性（Liouville 安全的 FFN）

相似文章

ReaComp：将LLM推理编译为符号求解器以实现高效程序合成

REGEN: 面向预测的参考引导型多元时间序列合成生成

Semantic Reification：随机程序生成的新范式

Regex Chess: 一个使用84,688个正则表达式的2层minimax国际象棋引擎

生成式递归推理

提交意见反馈