结构化提示优化与强化学习结合实现复杂文本的全局与局部可解释性

arXiv cs.CL 论文

摘要

介绍了eXTC,一个具有三个渐进阶段的文本分类器:结构化提示优化以学习自然语言规则手册、将推理蒸馏到紧凑的语言模型中、以及强化学习扩展推理,实现了强大的性能和可解释性。

arXiv:2605.29076v1 公告类型:新 摘要:LLMs推动了文本分类的发展,但现有范式面临权衡:监督(仅标签)微调可扩展,但在复杂文本上推理有限且缺乏模型透明度;而离散提示优化提供人类可读的指令,但在性能和可扩展性上存在困难。我们引入了eXTC(可解释文本分类器),具有三个渐进阶段:(1)通过新型结构化提示优化算法学习自然语言的标准操作程序(SOP,或规则手册);(2)从大型教师LLM到紧凑语言模型的基于SOP的推理蒸馏;(3)通过强化学习扩展超出初始SOP的推理能力。这一设计使eXTC能够提供(i)通过紧凑语言模型进行快速推理,(ii)推理时的局部推理轨迹,以及对其学习领域规则的全局模块化解释,同时(iii)在分类性能和解释质量方面,分阶段提升,显著优于现有范式。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:15

# 结构化提示优化与强化学习结合:面向复杂文本的全局与局部可解释性

来源:https://arxiv.org/html/2605.29076

Tianyang Zhou¹,Wenbo Chen²,Pierre Jinghong Liang¹,Leman Akoglu¹  
¹卡内基梅隆大学  
²亚马逊  
tzhou3@andrew\.cmu\.edu  
wbchen@amazon\.com  
liangj@tepper\.cmu\.edu  
lakoglu@andrew\.cmu\.edu

###### 摘要

大型语言模型(LLM)推动了文本分类的进步,但现有范式面临权衡:监督(仅标签)微调可扩展,但在复杂文本上推理能力有限且缺乏模型透明度;而离散提示优化虽能产生人类可读指令,却在性能和可扩展性上表现不佳。我们提出eXTC(可解释文本分类器),包含三个递进阶段:(1)通过新提出的结构化提示优化算法,以自然语言学习标准操作程序(SOP或规则手册);(2)基于SOP的推理蒸馏,从大型教师LLM压缩至小型语言模型;(3)通过强化学习扩展超越初始SOP的推理能力。这一设计使eXTC能够:(i)通过小型语言模型实现快速推理,(ii)提供推理时的局部推理轨迹,以及(iii)对其学到的领域规则提供全局模块化解释,同时在多个基准测试中,分类性能和解释质量均显著优于现有范式,且各阶段逐步提升。

---

# 结构化提示优化与强化学习结合:面向复杂文本的全局与局部可解释性

Tianyang Zhou¹,Wenbo Chen²,Pierre Jinghong Liang¹,Leman Akoglu¹  
¹卡内基梅隆大学  
²亚马逊  
tzhou3@andrew\.cmu\.edu  
wbchen@amazon\.com  
liangj@tepper\.cmu\.edu  
lakoglu@andrew\.cmu\.edu

## 1 引言

文本分类广泛应用于金融(如市场情绪)Das and Chen (2007 (https://arxiv.org/html/2605.29076#bib.bib3))、医疗(如临床笔记分类)Jagannatha and Yu (2016 (https://arxiv.org/html/2605.29076#bib.bib11))、法律(如案件结果预测)Chalkidis et al. (2020 (https://arxiv.org/html/2605.29076#bib.bib2))、网络安全(如垃圾邮件/钓鱼/恶意软件检测)Salloum et al. (2022 (https://arxiv.org/html/2605.29076#bib.bib35)) 等领域。随着LLM生成文本的兴起,文本分类在安全性和可靠性方面找到了关键应用,例如检测LLM与人类生成内容Mitchell et al. (2023 (https://arxiv.org/html/2605.29076#bib.bib27))、幻觉Ji et al. (2023 (https://arxiv.org/html/2605.29076#bib.bib12)) 以及有害/不安全生成内容Gehman et al. (2020 (https://arxiv.org/html/2605.29076#bib.bib7))。尽管广受欢迎,文本分类仍面临挑战,原因是:(i)文本输入的高维度,(ii)超越表层词汇的复杂细微语义,以及(iii)文本中的长距离依赖。此外,许多应用要求(iv)稳健的高级判别能力而非依赖虚假低级信号,以及(v)对单个决策的可解释性解释以及对模型学习内容的全局理解。

(a) 来自SOP的规则示例(节选):
[全局解释] 触发模式:当出院发生在待进行活检/病理结果返回前,且专科随访安排在数天至数周内时,应用"再入院"规则。...例外:无确诊疾病的待定病理。...

(c) 方法 | mF1 | Judge
零样本CoT | 0.517 | 3.58
阶段I (SPO4SOP) | 0.597 | 3.65
阶段I+II (R-SFT) | 0.620 | 4.29
阶段I+II+III (eXTC) | 0.652 | 4.31

(b) MIMIC再入院预测。
出院总结:患者有可疑癌症的肝斑。已进行活检;患者在等待结果期间稳定出院,并计划在10天后进行门诊肿瘤科随访。
零样本CoT推理:"可疑转移性疾病,待进行活检且已计划肿瘤随访,表明严重恶性肿瘤风险,可能很快需要化疗/放疗。高再入院风险。"
预测:再入院✗
vs.
eXTC (RL) 推理:
[局部解释] "已进行活检;结果待定,但无活动性恶性肿瘤迹象;未进行强化治疗,患者出院时稳定且能行走。"
预测:未再入院(✓)

图1:eXTC在MIMIC再入院任务中的概览。(a) 我们学到的规则手册(或SOP)中的规则节选;(b) 在测试案例上:零样本CoT对表面触发因素过度反应,而eXTC正确调用了规则的"例外"(尚无确诊疾病);(c) 两个指标在我们三个阶段中单调提升。详见§4.4 (https://arxiv.org/html/2605.29076#S4.SS4) 案例研究。

传统依赖大量文本特征Joachims (1998 (https://arxiv.org/html/2605.29076#bib.bib13)),甚至高级主题的解决方案,难以应对这些挑战,因为特征提供的碎片化表示无法捕捉丰富语义、长距离上下文、稳健高级推理和连贯解释。基于特征重要性和显著性的解释常常无法反映分类决策背后的深层理由Lipton (2018 (https://arxiv.org/html/2605.29076#bib.bib21))。

大型语言模型(LLM)已改变自然语言处理(NLP)的许多领域,对文本分类产生重大影响。事实上,BERTDevlin et al. (2019 (https://arxiv.org/html/2605.29076#bib.bib5)) 作为首批基于Transformer的语言模型之一,已显著提升多个NLP基准测试的分类性能,许多后续模型在此基础上成功Vajjala and Shimangaud (2025 (https://arxiv.org/html/2605.29076#bib.bib44))。LLM用于文本分类的吸引力在于其提供的优势,包括固有的世界和领域知识、整体上下文理解、自然语言接口、较少依赖低级虚假信号的高级推理,以及支持更可解释预测的推理能力。

然而,现有LLM驱动的分类解决方案在关键方面仍有限制。总体而言,这些方法主要分为两类:(1) 参数高效(监督)微调(PEFT/SFT)预训练骨干网络Wang et al. (2025a (https://arxiv.org/html/2605.29076#bib.bib46)),以及 (2) 提示优化(PO),学习上下文中的可读指令,引导冻结的骨干网络Pryzant et al. (2023 (https://arxiv.org/html/2605.29076#bib.bib31));Wang et al. (2024 (https://arxiv.org/html/2605.29076#bib.bib48)) 生成正确的标签标记作为输出。SFT,特别是PEFT,是可扩展的,但不容易提供推理轨迹或对底层模型的全局解释。仅在标签上微调的模型的链式思考提示Wei et al. (2022 (https://arxiv.org/html/2605.29076#bib.bib50)) 难以产生有竞争力的推理,尤其是针对复杂文本。相比之下,硬(离散)提示优化(PO)可以产生人类可读的提示,作为全局解释,但通常是非结构化的。此外,硬PO计算要求高,使其在大语料任务中可扩展性较差。(详见Table6 (https://arxiv.org/html/2605.29076#A1.T6) 和附录A (https://arxiv.org/html/2605.29076#A1) 的相关工作。)

本工作通过引入eXTC弥合这些差距——一种有效且高效的LLM驱动的可解释文本分类器,具备人类可读的全局和局部解释。在多阶段框架(图2 (https://arxiv.org/html/2605.29076#S2.F2))中,eXTC桥接了结构化提示优化、基于推理的SFT和强化学习;产生一个提供推理(局部解释)的小型蒸馏LM分类器,以及一个决策集形式的规则手册(全局解释)。以下总结我们的主要贡献。

- **以推理为中心的文本分类**:我们提出eXTC,一种新的LLM驱动的方法,用于对复杂文本进行分类和推理,同时提供全局和局部解释。(示例见图1 (https://arxiv.org/html/2605.29076#S1.F1) (a) 和 (b)。)
- **公式与算法创新**:eXTC具有多阶段框架:(i) **SOP学习**通过新的结构化提示优化(SPO)算法学习规则手册(SOP),(ii) **基于SOP的蒸馏**将SOP引导的推理轨迹从大型LM转移到小型LM,(iii) 进一步通过**超越SOP的强化学习**改进,采用课程设计以提高困难案例(即教师失败的案例)的性能。(见图1 (https://arxiv.org/html/2605.29076#S1.F1) (c)。)
- **理想特性**:eXTC (i) **有效**,利用SPO、SFT和RL;(ii) **高效**,通过蒸馏获得紧凑的4B参数学生模型;(iii) **双重可解释**;规则手册构成全局"SOP",小型LM在推理时的推理作为每个输入的局部解释。
- **评估**:在三个带有标签真实证据的真实世界基准测试上的广泛实验表明,eXTC在分类性能和解释质量方面均优于基线,结果通常从SPO到SFT到RL各阶段逐步提升,证明了所提出的多阶段学习范式的有效性。

## 2 问题与预备知识

图2:eXTC概览:阶段I:SPO学习规则手册(或SOP),为阶段II的教师推理和蒸馏提供基础;阶段III采用RL提高困难案例(即教师失败案例)的命中率。SOP作为全局解释,小型(学生)LM作为带有局部解释(即实例级推理)的文本分类器。

### 2.1 问题陈述

**典型文本分类**:设 \( \mathcal{X} \) 表示输入空间,域 \( {\Theta}_{\text{lang}} \) 表示自然语言,其中 \( \mathbf{x}_i \in \mathcal{X} \) 代表一个文本文档,即一个标记序列。设 \( \mathcal{Y} \),\( |\mathcal{Y}| = C \),表示可能的类别集合,其中 \( y_i \in \mathcal{Y} \) 是第 \( i \) 个示例的类别标签。典型的文本分类旨在学习模型 \( f_{\text{model}}(\cdot; \bm{\theta}) \),给定训练集 \( \mathcal{D} = \{(\mathbf{x}_i, y_i)\}_{i=1}^n \),实现低分类误差。

**决策集**:一个决策集 \( \mathcal{R} \) 由无序的规则集合 \( \{R_1, \ldots, R_K\} \) 组成,这些规则是**独立的**,即不通过'else'语句连接。这与层次决策列表相比更易于解释,因为决策列表中深处的规则实际上是长规则,且仅当所有前置规则不适用时才适用。

**定义 1(决策组合)**:每个规则 \( R_j \in \mathcal{R} \) 有一个目标标签 \( l_j \in \mathcal{Y} \),并且要么对输入 \( \mathbf{x} \) “触发”(预测 \( l_j \)),要么“弃权”。给定优先级顺序 \( p: \mathcal{Y} \to \{1, \ldots, |\mathcal{Y}|\} \) 与默认标签 \( y_{\text{def}} := \arg\min_l p(l) \),决策集的预测为:
\[
f_{\text{model}}(\mathbf{x}; \mathcal{R}) := R_{\arg\max_j p(R_j(\mathbf{x}))}(\mathbf{x})
\]
其中当 \( R_j \) 弃权时 \( R_j(\mathbf{x}) := y_{\text{def}} \),因此如果没有规则触发,则 \( f_{\text{model}}(\mathbf{x}; \mathcal{R}) = y_{\text{def}} \)。在二元情况(\( \mathcal{Y} = \{0,1\} \))下,这简化为标准最大池化:当且仅当至少一个规则触发时,\( f_{\text{model}}(\mathbf{x}; \mathcal{R}) = 1 \)。

决策集已有效用于表格数据的可解释机器学习Lakkaraju et al. (2016 (https://arxiv.org/html/2605.29076#bib.bib19));Macha and Akoglu (2018 (https://arxiv.org/html/2605.29076#bib.bib26)),其中每个规则对应一个项集,即数值和/或分类特征上的谓词合取(例如,age > 65 ∧ location == California)。与先前文献不同,我们的工作引入了**自然语言**中的规则决策集。这使我们能够将其用作(1)LLM驱动的文本分类器的结构化提示,以及(2)决策背后的人类可读解释。

**问题1(可解释文本分类)**:给定标注文本语料库 \( \mathcal{D} = \{(\mathbf{x}_i, y_i)\}_{i=1}^n \),\( \mathbf{x}_i \in {\Theta}_{\text{lang}} \),估计一个文本分类模型 \( f_{\text{model}}(\cdot; \bm{\theta}) : \mathbf{x} \mapsto \{\mathbf{r}, y\} \),该模型产生(1)实例级的局部解释 \( \mathbf{r} \in {\Theta}_{\text{lang}} \)(以推理形式),以及(2)模型级的全局解释 \( \mathcal{R} = \{R_k \in {\Theta}_{\text{lang}}\} \)(以自然语言规则决策集形式)。

我们的问题陈述与传统文本分类不同,明确要求自然语言中的局部和全局解释,从而推动语言模型驱动的方法。此外,全局解释是结构化且可分解的,实现了可读性和模块化检查。这种解释比碎片化的特征重要性分数或显著图更连贯、更丰富,后者通常仅识别输入文本中与预测标签最相关的部分,而非提供对内容的更深层语义解释。

### 2.2 口头化机器学习

用于文本分类的传统神经模型在连续空间中表现出数值参数 \( \bm{\theta} \)。受现代LLM在许多NLP任务中卓越能力的启发,最近的"口头化"机器学习方法Xiao et al. (2024 (https://arxiv.org/html/2605.29076#bib.bib53));Yüksekgönül et al. (2025 (https://arxiv.org/html/2605.29076#bib.bib55)),采用预训练(冻结的)LLM作为函数逼近器,由其(文本)提示参数化。本质上,输入数据 \( \mathcal{D} \in {\Theta}_{\text{lang}} \) 和模型参数 \( \bm{\theta} \in {\Theta}_{\text{lang}} \)(即提示)都以自然语言表示。LLM还用于提示优化,以推导"文本梯度",通过跨训练轮次对模型错误预测进行推理和反思,指导学习提示。

## 3 提出的框架

### 3.1 动机与概述

图2 (https://arxiv.org/html/2605.29076#S2.F2) 展示了eXTC的三个阶段:**I. SOP学习**采用结构化提示优化(SPO)学习规则手册或SOP(标准操作程序);**II. 基于SOP的蒸馏**收集基于推理的轨迹并进行蒸馏;**III. 超越SOP**通过强化学习进一步改进所学SOP之外的推理。阶段I和II仅将大型LM作为黑盒访问;小型LM在阶段II和III中训练。我们提供一个概述,说明每个阶段在整个流程中的角色动机。

**阶段I. SOP学习(§3.2 (https://arxiv.org/html/2605.29076#S3.SS2))**  
动机:给定 ⟨文本,标签⟩ 训练对 \( \mathcal{D} = \{(\mathbf{x}_i, y_i)\}_{i=1}^n \),基本方法是SFT/PEFT现有语言模型(LM),将输入文本映射到其标签。然而,该模型不会立即产生个体解释/推理 \( \mathbf{r}_i \)。

相似文章

自监督提示优化

Papers with Code Trending

本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。

乱码也有效:提示空间扰动拓宽推理探索

Hugging Face Daily Papers

本文介绍了 LoPE,这是一种利用提示空间扰动来解决可验证奖励强化学习中“零优势问题”的训练框架,从而增强大语言模型的推理探索能力。