从残差到推理:基于LLM的表格数据机制推断

arXiv cs.LG 论文

摘要

介绍了多智能体残差上下文学习(MARICL),这是一种智能体框架,利用LLM智能体分析基础模型在表格数据上的残差,假设缺失的结构,并通过文本梯度优化产生显式的修正项。在九个基准测试中,MARICL持续优于其基础模型,并在无细胞蛋白质预测中展示了机制泛化能力。

arXiv:2605.22897v1 公告类型:新 摘要:机器学习在科学应用中面临的一个持续挑战是同时实现预测和解释。统计模型在结构化数据上表现出色,但作为黑箱运行,而现有的可解释性方法主要是检查性的:它们回答“哪些特征重要?”但不能阐述特征如何交互或随着人类理解逐步改进解释。要求LLM直接预测目标会迫使它搜索整个输出空间;我们相反地,用一个基础模型锚定预测,并让LLM回答更窄的问题:该模型遗漏了什么。我们引入了多智能体残差上下文学习(MARICL),这是一种智能体框架,其中LLM智能体分析基础模型失败的地方,从上下文中提供的高残差示例中假设缺失的结构,并通过多轮文本梯度优化产生显式的修正项。在涵盖科学、生物医学、社会经济和合成环境的九个基准测试中,MARICL在所有数据集上持续优于其基础模型。为了测试这些修正是反映真实结构还是批次特定噪声,我们冻结在无细胞蛋白质数据集的一个实验批次上学到的公式,并将它们应用于(无需重新训练且无需进一步调用LLM)保留的批次。在同一试剂协议内,冻结公式在超过92%的情况下改善了预测;在不同协议下,它们系统性地失败。成功边界与生物化学一致,而非批次数量;这是机制泛化的直接证据。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:56

# 从残差到原因:基于LLM的表格数据机制推断  
来源:https://arxiv.org/html/2605.22897  

**Mohammad R. Rezaei**  
多伦多大学计算机科学系  
向量研究所  
多伦多,安大略省,加拿大  
[email protected]  

**Rahul G. Krishnan**  
多伦多大学计算机科学系  
向量研究所  
多伦多,安大略省,加拿大  
[email protected]  

###### 摘要  

机器学习在科学应用中的一个持续挑战是同时实现预测与理解。统计模型在结构化数据上表现出色,但本质上是不透明的黑箱,而现有的可解释性方法大多属于“检查性”方法:它们能回答“哪些特征重要?”,但无法阐明特征如何交互,也无法随着人类理解逐步迭代地优化解释。要求LLM直接预测目标,会迫使其搜索整个输出空间;我们转而用一个基础模型锚定预测,并要求LLM回答一个更窄的问题:该模型遗漏了什么。我们提出**多智能体残差上下文学习(MARICL)**,这是一个智能体框架,其中LLM智能体分析基础模型失败的区域,从上下文提供的高残差示例中假设缺失的结构,并通过多轮文本梯度优化生成显式的修正项。在涵盖科学、生物医学、社会经济和合成环境的九个基准测试中,MARICL在所有数据集上均持续优于其基础模型。为了测试这些修正是反映了真实结构还是批次特定噪声,我们将从无细胞蛋白数据集的一个实验批次中学到的公式冻结,并(无需重新训练或进一步调用LLM)应用于其他保留批次。在同一试剂方案内,冻结公式在超过92%的情况下提升了预测;而在不同方案下,它们系统性失败。成功边界与生物化学一致,而非批次数量——这是机制泛化的直接证据。代码可在GitHub获取(https://github.com/MrRezaeiUofT/Multi_Agent_Residual_In_Context_Learning)。  

## 1 引言  

表格机器学习在准确性与可解释性之间长期面临权衡。梯度提升及相关方法在表格数据上非常准确(Grinsztajn等人,2022 (https://arxiv.org/html/2605.22897#bib.bib48); McElfresh等人,2024 (https://arxiv.org/html/2605.22897#bib.bib49)),但对其学到的关系不提供任何信息。事后解释方法只能部分解决这一问题:SHAP(Lundberg和Lee,2017 (https://arxiv.org/html/2605.22897#bib.bib50))将预测归因于其特征,TreeSHAP将其扩展到成对交互(Lundberg等人,2020 (https://arxiv.org/html/2605.22897#bib.bib51)),但这些归因是固定模型上的每个样本权重,而非可以检查、编辑或改进的全局公式。内在可解释模型,如GAM(Hastie和Tibshirani,1987 (https://arxiv.org/html/2605.22897#bib.bib54))和EBM(Nori等人,2019 (https://arxiv.org/html/2605.22897#bib.bib57)),在表格基准上具有竞争力,但它们拟合的是平滑的每特征形状函数(以及GA2M中的成对项),而非与特定特征组合和系数相关联的命名符号表达式。符号回归(Cranmer,2023 (https://arxiv.org/html/2605.22897#bib.bib63); Shojaee等人,2025 (https://arxiv.org/html/2605.22897#bib.bib61))能生成方程,但它是端到端地拟合目标,而非诊断给定模型在何处以及为何失败。最近关于**智能体可解释性**的工作(Kim等人,2025 (https://arxiv.org/html/2605.22897#bib.bib56))认为,LLM智能体可以超越一次性检查,通过多轮推理来优化解释。实际困难在于循环有太多方向可以探索,除非受到约束,否则很少能收敛到可测试的结果。我们问:在这样的约束下,智能体循环如何能同时产生准确的预测和可检查的解释?  

参见标题  
图1:MARICL框架概览:(1-2)基础模型生成预测,(3)残差分析选择高误差示例,(4-5)LLM编码器产生结构化假设 \(z_k\),解码器将其转化为解释 \(T_k\) 和可执行公式,(6)文本梯度优化通过批评反馈优化修正,(7-8)查询感知聚合。  

一个自然的基线是 **LLM-ICL**:将整个训练集以 \((x_i, y_i)\) 对的形式放入LLM的上下文,并让其在单次前向传递中为每个测试查询预测 \(y\)。在无细胞蛋白产率预测上,其 \(R^2\) 仅达到 0.35;比普通线性回归还差。这一失败具有启发性:单次前向传递被要求同时进行回归、识别非线性结构并将其自身锚定在数据数值尺度上,覆盖整个输出域。假设空间太大,单次无法定位。因此我们将问题分解。一个统计**基础模型**(线性回归、XGBoost或任何经过验证的预测器)处理回归框架并固定输出尺度。然后LLM被问一个窄得多的问题:**基础模型遗漏了什么?** 其目标从完整的 \(y\) 缩小到残差 \(r = y - \hat{y}_{\text{ML}}\),其工作从端到端预测缩小到阐明高残差示例中可见的结构性失败模式。这给了我们两个设计选择:(i) 将基础模型作为预测任务的锚点,以及 (ii) 将LLM限制在解释基础模型留下的残差信号。这两个选择定义了多智能体残差上下文学习(MARICL)(图1 (https://arxiv.org/html/2605.22897#S1.F1))。一个**编码器智能体**读取高残差训练示例并产生结构化假设。一个**解码器智能体**将每个假设编译成一个可执行的修正项——一个基于特定特征的命名公式。**文本梯度优化**(Yuksekgonul等人,2024 (https://arxiv.org/html/2605.22897#bib.bib8))(一种迭代循环,其中LLM用自然语言批评自己的输出并提出改进建议,以替代标准优化中使用的数值梯度)通过在其仍然失败的示例上强化公式来优化每个修正。我们并行运行 \(K\) 个这样的智能体,并通过性能加权集成进行聚合。这种聚合是查询感知的:每个修正项由一个学习到的权重 \(\alpha\) 门控——例如表1 (https://arxiv.org/html/2605.22897#S1.T1) 中的 0.28 系数——该权重反映了基于查询与训练数据中特定高残差簇的接近度推断出的智能体专长。无细胞蛋白示例说明了这在实践中如何运作。  

**无细胞蛋白合成**是一种生物化学技术,在试管中使用细胞提取物加补充试剂(能量底物、辅因子、多胺)生产蛋白质;预测任务是产率作为试剂浓度的函数。在表1 (https://arxiv.org/html/2605.22897#S1.T1) 的样本中,当NAD(一种能量辅因子)和亚精胺(一种促进翻译的多胺)都高时,基础模型低估了产率。MARICL推断出辅因子协同作用,生成交互项 \(\text{NAD} \times \text{sperm}\),然后用叶酸(其回报递减)的饱和项进行优化。在整个数据集上,这将 \(R^2\) 从0.35提升到0.65(比LLM-ICL提升+0.30;完整跟踪见附录A (https://arxiv.org/html/2605.22897#A1))。  

表1:MARICL对比LLM-ICL在无细胞蛋白示例上(NAD=0.8,sperm=0.7,fol=0.3,\(y=0.72\),基础 \(\hat{y}_{\text{ML}}=0.58\))。MARICL仅针对残差;LLM-ICL从零开始预测 \(y\)。  

| 阶段 | MARICL | LLM-ICL |
|------|--------|---------|
| 残差分析 | 高误差样本聚集在NAD>0.6,sperm>0.4;输入编码器。 | — 无基础可比较 |
| 假设 | “NAD–亚精胺辅因子协同导致低估。” | — 隐含在单次前向传递中 |
| 公式 \(t=0\) | \(f^{(0)} = 0.5 \cdot \text{NAD} \times \text{sperm} = 0.28\) | — 无可执行修正 |
| 批评 \(t=0\) | “叶酸饱和;添加米氏项。” | — 无反馈循环 |
| 公式 \(t=1\) | \(f^{(1)} = f^{(0)} + \frac{0.5 \cdot \text{fol}}{0.5 + \text{fol}} = 0.4675\) | — 无优化 |
| 加权 | \(\alpha = 0.28\)(通过查询感知聚合学习) | — 不适用 |
| 预测 | \(\hat{y} = f_{\text{ML}} + \alpha f^{(1)} = 0.58 + (0.28 \times 0.4675) \approx \mathbf{0.711}\),误差 \(\approx \mathbf{0.009}\) | \(\hat{y} \approx 0.52\),误差 \(\approx 0.20\)(\(\sim 22\times\) 更大) |

在涵盖科学、生物医学、社会经济和合成领域的九个基准上,MARICL在每个数据集上都优于其基础模型。增益在基础模型最弱时最大(例如,在线性基础模型上对无细胞蛋白提升+0.236 \(\Delta R^2\)),在更强的基础模型(如XGBoost)上较小但一致。  

**贡献。** (1) MARICL:一个智能体框架,通过结构化假设生成和迭代优化,在基础模型之上产生命名的、可执行的修正项。(2) 一种受残差条件影响的文本梯度优化(Yuksekgonul等人,2024 (https://arxiv.org/html/2605.22897#bib.bib8))的适配,结合基于距离的聚合,该聚合在修正项应用于远离其推断来源的残差时会降低其权重。(3) 分层消融实验,逐步移除LLM的预训练先验(特征名称、领域上下文、前沿模型能力),以及一个LLM从未见过的植入真实地面真值的合成基准。这些共同将MARICL增益中数据驱动份额的下限定为实际基准上的约50%。(4) 无细胞蛋白上的跨板转移实验,其中每个**板**是一个实验批次。在一个板上冻结的修正公式,逐字应用于其他板,在同一试剂方案内超过92%的配对中改善了预测,而在不同方案下系统性失败——这是修正捕获生物化学机制而非批次特定噪声的证据。

## 2 方法  

**算法1** MARICL训练算法  

1: **输入**: 训练数据 \(\mathcal{D}_{\text{train}}\),基础模型 \(f_{\text{ML}}\),修正数量 \(K\),优化迭代次数 \(T\),残差分数 \(\kappa\),性能阈值 \(p_{\min}\),批次大小 \(B\)  
2: **输出**: 集成修正 \(\mathcal{M}^*\),性能分数 \(\{p_k\}\)  
3: 对所有 \((x_i, y_i) \in \mathcal{D}_{\text{train}}\) 通过公式3 (https://arxiv.org/html/2605.22897#S2.E3) 计算残差 \(r_i\)  
4: 构建高残差数据集 \(\mathcal{D}_{\text{high-res}}\) 为 \(|r_i|\) 最高的 \(\kappa\) 比例  
5: 构建增强上下文 \(\mathcal{C}_{\text{aug}}\) (公式5 (https://arxiv.org/html/2605.22897#S2.E5))  
6: **for** \(k=1\) **to** \(K\) **do**  
7:   **if** \(|\mathcal{D}_{\text{high-res}}| > B\) **then**  
8:     划分成批次;通过公式7 (https://arxiv.org/html/2605.22897#S2.E7) 编码每个批次  
9:     \(z_k^{(0)} \leftarrow \text{Concat}(z_{k,1}, z_{k,2}, \ldots)\)  
10:  **else**  
11:     \(z_k^{(0)} \leftarrow \text{Encode}_{\text{LM}}(\mathcal{C}_{\text{aug}}, \mathcal{P}_{\text{encoder}}^{(k)})\)  
12:  **end if**  
13:  \((T_k^{(0)}, f_k^{(0)}) \leftarrow \text{Decode}_{\text{LM}}(z_k^{(0)}, \mathcal{P}_{\text{decoder}})\)  
14:  验证 \(f_k^{(0)}\);若无效则重新生成  
15:  \(\mathcal{S}_k^{(0)} \leftarrow \{(z_k^{(0)}, m_k^{(0)})\}\)  
16: **end for**  
17: **for** \(k=1\) **to** \(K\) **do**  
18:   **for** \(t=0\) **to** \(T-1\) **do**  
19:     使用 \((T_k^{(t)}, f_k^{(t)})\) 在 \(\mathcal{D}_{\text{train}}\) 上评估 \(\mathcal{L}_k^{(t)}\)  
20:     识别失败集 \(\mathcal{E}_k^{(t)}\) (公式10 (https://arxiv.org/html/2605.22897#S2.E10))  
21:     生成批评 \(g_k^{(t)}\) (公式11 (https://arxiv.org/html/2605.22897#S2.E11))  
22:     \(\mathcal{S}_k^{(t+1)} \leftarrow \mathcal{S}_k^{(t)} \cup \{(z_k^{(t)}, m_k^{(t)}, \mathcal{L}_k^{(t)}, g_k^{(t)})\}\)  
23:     优化: \((T_k^{(t+1)}, f_k^{(t+1)})\) 通过公式13 (https://arxiv.org/html/2605.22897#S2.E13)  
24:     验证 \(f_k^{(t+1)}\);若无效则重新生成  
25:   **end for**  
26:   \(m_k^* \leftarrow \arg\min_t \mathcal{L}_k^{(t)}\);计算 \(p_k\) (公式17 (https://arxiv.org/html/2605.22897#S2.E17))  
27: **end for**  
28: **返回**: \(\mathcal{M}^* = \{m_k^* : p_k > p_{\min}\}\),\(\{p_k\}\)  

我们考虑在 \(\mathcal{D} = \{(x_i, y_i)\}_{i=1}^N\) 上的监督学习,其中 \(x_i \in \mathbb{R}^d\),\(y_i \in \mathbb{R}\)(回归)或 \(y_i \in \{1, \ldots, C\}\)(分类),分为训练集、验证集和测试集。我们假设存在一个预训练的基础模型 \(f_{\text{ML}}: \mathbb{R}^d \rightarrow \mathcal{Y}\)——可以是线性模型、树模型或梯度提升模型。MARICL学习 \(K\) 个修正智能体,其预测叠加在基础模型之上;可解释性体现在修正中,这些修正指明了基础模型系统性遗漏的内容。每个智能体产生一个修正 \(m_k = (T_k, f_k)\),配对一个自然语言模板 \(T_k\) 和一个闭式公式 \(f_k\)。对于回归,\(f_k: \mathbb{R}^d \rightarrow \mathbb{R}\)(裁剪到缩放后的目标范围;附录N.3 (https://arxiv.org/html/2605.22897#A14.SS3))。对于分类,\(f_k: \mathbb{R}^d \rightarrow \mathbb{R}^C\) 产生每个类别的分数,转换为第2.3节 (https://arxiv.org/html/2605.22897#S2.SS3) 中的分布 \(Q_k\)。MARICL的预测则为:  
\[
\hat{y}_{\text{MARICL}}(x) = f_{\text{ML}}(x) + \sum_{k=1}^K \alpha_k(x) \cdot \Delta_k(x)
\tag{1}
\]  
其中 \(\Delta_k(x) = f_k(x)\),\(\alpha_k(x) \geq 0\),\(\sum_{k=1}^K \alpha_k(x) = 1\) 是查询相关的注意力权重(第2.4节 (https://arxiv.org/html/2605.22897#S2.SS4))。对于分类:  
\[
P_{\text{MARICL}}(x) = \beta \cdot P_{\text{ML}}(x) + (1-\beta) \sum_{k=1}^K \alpha_k(x) \cdot Q_k(x)
\tag{2}
\]  
其中 \(P_{\text{ML}}(x), Q_k(x) \in \Delta^{C-1}\),\(\beta \in [0,1]\)。  

**残差分析。** 对于每个训练示例,我们计算残差:  
\[
r_i = \begin{cases} 
y_i - f_{\text{ML}}(x_i) & \text{(回归)} \\
\mathbb{I}[f_{\text{ML}}(x_i) \neq y_i] \cdot \bigl(1 - P_{\text{ML}}(x_i)_{y_i}\bigr) & \text{(分类)}
\end{cases}
\tag{3}
\]

相似文章

自适应潜在智能体推理

arXiv cs.CL

本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。

超越推理:强化学习释放大型语言模型中的参数化知识

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。

使用推理代理的大规模反例引导学习

arXiv cs.LG

本文提出将反例引导学习用于LLM执行正则表达式归纳,其中验证器提供反例以优化候选表达式。该方法显著提高了具有挑战性任务上的样本效率和成功率,表明LLM可以从结构化反馈中受益,而不仅仅是将其视为额外数据。

模拟、推理、决策:基于LLM的科学推理驱动仿真决策

arXiv cs.AI

密歇根大学的研究人员推出了MechSim——一个基于机制的神经符号推理框架,使LLM智能体能够对科学模拟器的内部假设、依赖关系和执行行为进行推理,而非将其视为黑盒。该框架在医疗、金融和公共政策等高风险领域提升了解释质量与决策可靠性。