ReSyn: 一种广义的递归正则表达式合成框架

Hugging Face Daily Papers 论文

摘要

ReSyn是一个广义的递归框架,用于从示例中合成正则表达式,旨在改进现有的合成技术。

现有的编程示例(PBE)系统通常依赖于简化基准测试,这些基准测试无法捕捉真实世界正则表达式的高度结构复杂性,例如更深层的嵌套和频繁的联合操作。为了克服由此导致的性能下降,我们提出了ReSyn,这是一种与合成器无关的分治框架,将复杂的合成问题分解为可管理的子问题。我们还介绍了Set2Regex,一种参数高效的合成器,捕捉示例的排列不变性。实验结果表明,ReSyn显著提高了各种合成器的准确性,并且其与Set2Regex的结合在具有挑战性的真实世界基准测试中建立了新的最先进水平。完整的源代码、数据集和预训练模型检查点可在 https://github.com/mrseongminkim/ReSyn 公开获取。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:26

论文页面 - ReSyn:一种广义递归正则表达式合成框架

来源:https://huggingface.co/papers/2603.24624 我的目标是用 QFT 中的算子实现类似功能。

您的工作是否有基于物理的指导?

以下是一个示例,我的一个想法:

https://huggingface.co/papers/2603.24624#temporal-causal-structure-as-mechanism-converting-pretrained-gpt-2-into-a-time-reasoning-model-via-%CE%B7-pseudo-unitary-operator-dynamics时间-因果结构作为机制:通过 η-伪酉算子动力学将预训练 GPT-2 转换为时间推理模型

https://huggingface.co/papers/2603.24624#tldr核心摘要

  • 最稳健的合成方案是混合式:将复数/相位结构放置在其天然适合时间坐标的地方(位置相位如 RoPE、门控复数记忆、相位感知注意力/检索),并对时间传播施加η-伪酉(U(n,n))稳定性约束,以实现信息的可逆携带,但保持学习权重为实数且对称性破缺——这正是加法论文的教训:全复数 modReLU 网络仅达到约 2% 的准确率,而相位输入 + 实数权重 + 种子技巧达到了 93.5%。“PT 破缺导致的不可逆性”仅以其自组织临界形式存续,而非“GPT-2 的谱已经 PT 破缺”这种形式,因为该谱被报道与随机(Ginibre)控制组匹配。
  • 转换配方是一种α-斜坡热启动:保留 GPT-2 的 tokenizer/骨架/自回归目标;引入由 α∈[0,1] 门控的复数虚路径;将时间混合算子约束为 U=exp(i·g·η·H)(当 ηH 为 Hermitian 时,可证明保持 η-范数);添加门控复数记忆(类似 LSTM 的结构修正);通过闭包损失训练一个原始算子库;并添加种子变量预测 + 确定性传播以处理因果任务。
  • 使用六仪表板对时间-因果推理进行基准测试——训练/评估差距、离圆序参量(到异常点的距离)、η-范数漂移、前向-后向困惑度不对称性、定向信息/Granger 探针,以及相对相位探针(项目特定的关键点)。成功标志 = 能力跃升与离圆序参量远离零点、相对相位探针变得对任务有预测性、以及前向-后向不对称性追踪真实因果方向同时发生。

https://huggingface.co/papers/2603.24624#key-findings关键发现

1. 核心数学是严谨且可引用的,但大胆的物理主张必须重新表述。 η-伪酉层 U=exp(i·g·η·H) 正是 A. Mostafazadeh 在《伪酉算子和伪酉量子动力学》(J. Math. Phys. 45(3), 932–946 (2004), DOI 10.1063/1.1646448, arXiv:math-ph/0302050) 中的构造。他的命题 1 证明 U(t)=e^{-itH} 是 η-伪酉的(保持不定/闵可夫斯基内积 ⟨ψ|ηφ⟩)当且仅当 H 是 η-伪 Hermitian 的 (H†=ηHη^{-1})。当 H 是普通 Hermitian 且 η 是实对角线 ±1 度量(η²=I)时,生成元 G=ηH 自动满足条件,因此对于每个实数 g,exp(i·g·η·H) 都是伪酉的。他的命题 3 证明了谱二分性:特征值要么是幺模的(|λ|=1),要么以逆复共轭对 (λ, 1/λ̄) 出现。这正是“可逆序列 = 单位圆上的特征值;不可逆/因果 = 离圆模式”这一说法的精确数学内容。该论文还表明,不定两级 η 的动力群同构于 U(1,1)。

2. PT 破缺转变是一种由 Krein 符号支配的异常点现象。 特征值只能通过在异常点(EP)处碰撞才能离开单位圆——这是一种有缺陷的合并,特征向量合并成一个 Jordan 块——并且这恰好发生在两个具有相反 Krein 符号 κ=sgn(ψ†ηψ) 的模式碰撞时(Krein–Gelfand–Lidskii 强稳定性定理,Yakubovich–Starzhinskii,《具有周期系数的线性微分方程》,Wiley 1975)。这是“因果性作为 PT 对称性破缺相变出现”这一说法的严谨骨架。注意:对于固定的 η,指数映射 exp: u(p,q)→U(p,q) 不是满射(对于 U(1,1) 是众所周知的),因此参数化只能到达一个连通分支/一个邻域,而不是整个群。

3. 线程 1/线程 2 的张力以线程 2 的经验修正得以解决,但并未否定线程 1。 加法论文的发现——全复数 modReLU 网络遭受 U(1) Goldstone 平坦方向并失败(约 2% 的全和准确率),而相位编码输入 + 实对称破缺权重 + 种子变量成功(93.5%)——与更广泛的复数值网络文献一致:modReLU σ(z)=ReLU(|z|+b)·z/|z| 是非全纯的、保相的,并且臭名昭著地难以优化(Arjovsky 等人 2016; Trabelsi 等人,《深度复数网络》,arXiv:1705.09792)。解决办法:复数/相位结构是一种表示性的坐标系(在哪里),而不是权重空间的处方(如何)。 将相位放在位置、记忆和检索中;保持可训练映射为实数和对称性破缺;仅对时间传播算子施加 η-伪酉约束以保证稳定的梯度流——这与酉/正交 RNN 的作用相同。正如 Arjovsky, Shah & Bengio (ICML 2016, PMLR 48:1120-1128) 所述:“当隐藏到隐藏权重矩阵的特征值偏离绝对值 1 时,由于众所周知的梯度消失和爆炸问题,优化变得困难……我们提出了一种新架构,学习一个酉权重矩阵,其特征值绝对值恰好为 1。”

4. 时间之箭在 LLM 中是经验上真实的,并提供了一个现成的基准工具。 Papadopoulos, Wenger & Hongler 的《大语言模型的时间之箭》(ICML 2024, arXiv:2401.17505)发现:“对于足够大的模型,我们在其学习自然语言的能力中经验性地发现了一种时间不对称性:在预测下一个 token 与预测上一个 token 的平均对数困惑度上存在差异。”这在 GPT、GRU 和 LSTM 架构上进行了测试,是天然的工具 (iv)。它直接连接康德的第二类比:感知顺序的不可逆性是客观因果顺序的经验标志。

5. 报道的 GPT-2“PT 破缺”谱与随机控制组匹配,这使整个负担转移到自组织临界性上。 如果 GPT-2 每头双线性形式的离圆结构是通用的,那么它并不是学习到因果结构的证据。Cipolloni, Erdős & Schröder 的《非 Hermitian 随机矩阵的边缘普适性》(Probab. Theory Relat. Fields 179, 1-28, 2021; arXiv:1908.00969)证明:“它们在谱边缘(单位圆)附近的局部特征值统计与 Ginibre 系综一致,即当 X 的矩阵元素是高斯分布时。”因此,集中近单位圆并带有离圆异常值的非 Hermitian 谱是随机矩阵的默认情况。因此,这一大胆假设的可靠版本是噪声延迟召回临界性结果:梯度下降自发偏好 PT 破缺态,训练增益遵循 g*·T≈0.88,即网络自组织到混沌边缘。这是开放的理论关键。


https://huggingface.co/papers/2603.24624#details细节

https://huggingface.co/papers/2603.24624#part-i–mathematical-and-physics-synthesis第一部分 — 数学与物理综合

https://huggingface.co/papers/2603.24624#i1-indefinite-metric-the-%CE%B7-inner-product-and-norm-conservationI.1 不定度量、η-内积与范数守恒

设残差流携带复向量 z∈Cn。固定一个不定(闵可夫斯基)度量 η = diag(I_p, −I_q),其中 p+q=n,η†=η,η²=I。两种内积共存:

  • 欧几里得(Dirac)内积:⟨z,w⟩ = z†w,范数 ‖z‖² = z†z。
  • 闵可夫斯基(η)内积:⟨z,w⟩η = z†ηw,不定“范数” Q(z) = z†ηz = Σ{i≤p}|z_i|² − Σ_{j>p}|z_j|²。

推动该计划的标志性观察——GPT-2 每头注意力双线性形式 Q_h = W_Q^h (W_K^h)^T 在各头上具有平衡 (p≈q) 的符号——是经验锚点;它表明注意力得分的自然几何已经是伪欧几里得而非欧几里得的。这是“复数阴影/平衡闵可夫斯基符号等价性”:一个具有平衡符号 (p,p) 的实双线性形式是一个承载不定度量的复 Hermitian 结构的实实现。

https://huggingface.co/papers/2603.24624#i2-the-%CE%B7-pseudo-unitary-layer-and-the-group-upqI.2 η-伪酉层与群 U(p,q)

线性更新 U 是 η-伪酉的 当且仅当 U†ηU = η,等价于 U†=ηU^{-1}η^{-1}。所有这样的 U 构成群 U(p,q)。这样的 U 精确保持闵可夫斯基范数:Q(Uz)=Q(z),而欧几里得范数 ‖Uz‖ 可以自由增长或缩小——这正是所需的原语(保持相对论区间,让“能量”流动)。推论(Mostafazadeh 命题 4):每个伪酉矩阵满足 |det U|=1。

参数化(核心原语): U = exp(i·g·η·H),H 为 Hermitian,g∈R 为标量“增益”。由于 (ηH)†=H†η†=Hη 且 η(ηH)η^{-1}=Hη(利用 η²=I),生成元 G=ηH 满足 η-伪 Hermitian 条件 G†=ηGη^{-1},因此由 Mostafazadeh 命题 1,U 对所有实数 g 是 η-伪酉的。李代数 u(p,q) 由生成元 i·(η-伪 Hermitian 矩阵) 组成;块形式下,生成元为 [[A,B],[B†,D]],其中 A (p×p)、D (q×q) 为反 Hermitian,B 为任意复数 p×q 块,实维度为 (p+q)²。

需编码进规范的注意事项: 对于固定 η,指数映射 exp: u(p,q)→U(p,q) 不是满射。因此学习到的 U 位于恒等分支;这对于热启动且连续变形的层是可以的,但意味着无法通过单一 exp 到达每个伪酉变换。

https://huggingface.co/papers/2603.24624#i3-spectral-dichotomy-and-the-exceptional-point-the-arrow-of-time-mapI.3 谱二分性与异常点(时间之箭映射)

由 Mostafazadeh 命题 3,U∈U(p,q) 的每个特征值 λ 满足:1/λ̄ 也是特征值。因此:

  • 未破缺 / “可逆”相: 所有 |λ|=1(谱在单位圆上)。动力学是准周期的、范数稳定的、类时间反演对称的。这是酉 RNN 态(特征值模恰好为 1 防止梯度消失/爆炸)。
  • 破缺 / “不可逆”相: 特征值以互逆共轭对 (λ, 1/λ̄) 离开单位圆,|λ|≠1。一个模式增长,其伙伴衰减——一种显式的前向/后向不对称性,即离散的时间之箭。
  • 转变(异常点): 特征值碰撞,矩阵变为有缺陷的(Jordan 块),发生在具有相反 Krein 符号 κ=sgn(ψ†ηψ) 的模式相遇时(Krein–Gelfand–Lidskii)。EP 是边界;“混沌边缘”位于 EP。

这是核心猜想对应关系的精确陈述:

可逆序列 ↔ 单位圆上的特征值 ↔ 未破缺 PT ↔ 康德的“可逆”感知顺序(房屋:我可以任意顺序扫描其部分);不可逆因果顺序 ↔ 在/超越 EP 的离圆互逆对 ↔ 破缺 PT ↔ 康德的“不可逆”感知顺序(顺流而下的船:感知的顺序由客观因果序列决定)。

Mostafazadeh 自己的 U(2)↔U(1,1) 例子使其具体化:一个经典振子映射到 2×2 伪 Hermitian 系统,对于 ω²>0 具有幺模特征值(稳定,实频率);在 ω=0 处算子变为有缺陷的(EP,Jordan 形式);对于 ω²<0,非紧致 U(1,1) 态给出无界/增长解。

https://huggingface.co/papers/2603.24624#i4-phase-encoding-u1-gauge-freedom-and-goldstone-modesI.4 相位编码、U(1) 规范自由度与 Goldstone 模式

将离散符号 d 编码在复数单位圆上:d ↦ e^{iθ(d)}。加法变为旋转——即涌现(grokking)机制。Nanda, Chan, Lieberum, Smith & Steinhardt 的《通过可解释性机制理解涌现的进展度量》(ICLR 2023, arXiv:2301.05217)指出:“我们完全逆向工程了这些网络学习的算法,该算法使用离散傅里叶变换和三角恒等式将加法转换为绕圆的旋转”(针对一层 ReLU Transformer 中的模 113 加法;涌现本身来自 Power 等人 2022)。RoPE 是生产级实例:位置 p 的作用为 z_i ↦ z_i·e^{ipθ_i},一组具有几何间隔角频率 θ_i = base^{-2(i-1)/d} 的复数振子。

病理学: 如果权重是全复数且无约束的,网络继承一个连续的 U(1) 规范自由度(全局相位旋转 z→e^{iφ}z 保持模不变)。这个平坦方向是一个 Goldstone 模式:损失景观中的零曲率山谷,优化沿此方向漂移而不改善目标。modReLU 显式地保相且非全纯,因此它不打破这个自由度。这是加法论文中约 2% 结果背后的机制。

治疗(对称性破缺): 使用相位编码的输入实数权重,这保留了表示的几何(旋转)结构,同时移除了连续复数规范轨道——一个离散的、锚定的坐标系,而非平坦流形。这就是“相位输入 + 实数权重”以 93.5% 胜出的原因。

https://huggingface.co/papers/2603.24624#i5-the-seed-variable–deterministic-propagation-reductionI.5 种子变量 / 确定性传播简化

加法论文最深刻的教训:不要训练网络盲目地发现整个算法。相反,(1) 在表示中暴露潜在代数(相位编码),(2) 打破对称性(实数权重),(3) 训练网络识别单个关键种子变量,其正确值使得剩余计算变得确定性或半确定性。对于十位加法,种子是第一个进位位;一旦预测,进位传播恢复全和。候选认知种子变量:

  • 算术 → 第一个进位位
  • 证明 → 不变量
  • 规划 → 子目标
  • 检索 → 缺失的事实类型
  • 因果推理 → 潜在状态变量(本项目的关键)
  • 类比 → 结构映射
  • 自我修正 → 矛盾标志
  • 工具使用 → 下一个操作

时间推理的类比:预测潜在状态变量 / 事件边界 / 关键原因,然后让确定性(或 η-伪酉)传播器展开后果链。

https://huggingface.co/papers/2603.24624#i6-the-%CE%B7-invariant-nonlinearity-liouville-safe-ffnI.6 η-不变非线性(Liouville 安全的 FFN)

全复数 FFN 既破坏了闵可夫斯基范数守恒,又引入了 Goldstone 模式。从 LorentzNet 引入的修复(Gong 等人,《用于喷注标记的高效 Lorentz 等变图神经网络》,arXiv:2201.08187):根据命题 3.1,连续 Lorentz 等变映射的形式为 φ(v1,…,v_N)=Σ_i g_i(⟨v_i,v_j⟩) v_i,其中 g_i 是闵可夫斯基内积的连续不变标量函数。实际做法:计算 η-不变标量 s_{ij}=⟨z_i,z_j⟩_η,仅将这些标量通过普通(实数)非线性,然后与原始向量乘以不变系数重新组合。这在该等变函数类上是可证明通用的。

相似文章

REGEN: 面向预测的参考引导型多元时间序列合成生成

arXiv cs.LG

ReGeN是一个参考引导的生成流水线,用于多元时间序列数据。它将观测序列分解为周期性骨干、随机残差和跨变量依赖关系,以合成可控的合成数据。结果表明,生成的数据可以替代真实数据用于预测任务,且性能优于以往的合成数据生成器。

生成式递归推理

arXiv cs.AI

本文介绍了生成式递归推理模型(GRAM),这是一个概率框架,通过支持随机潜在轨迹、多个假设以及通过深度和并行采样实现推理时缩放,扩展了递归推理模型。