BCL:面向信息抽取的贝叶斯上下文学习框架

arXiv cs.CL 论文

摘要

BCL是首个采用带有贝叶斯更新的粒子滤波来系统优化信息抽取任务中标签表示的框架,相较于现有方法展现出持续一致的改进。

arXiv:2606.18620v1 公告类型:新 摘要:现有的信息抽取(IE)任务越来越多地采用基于大语言模型的上下文学习(ICL)。然而,当前方法要么在不同规模模型上表现不一致,要么缺乏系统优化和泛化能力。基于此,我们提出了BCL(面向信息抽取的贝叶斯上下文学习框架),这是首个采用带有贝叶斯更新的粒子滤波来系统优化IE任务中标签表示的框架。通过初始化、观测、权重更新和重采样四个步骤,BCL可推广至序列标注和关系分类两种范式。大量实验表明,与现有方法相比,BCL取得了显著且一致的改进。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:45

# BCL:面向信息抽取的贝叶斯上下文学习框架
来源:https://arxiv.org/html/2606.18620
Haoliang Liu1\*Chengkun Cai21†footnotemark:1Xu Zhao31†footnotemark:1Han Zhu4Shizhou Huang5††thanks:Important contribution.Xinglin Zhang6Tao Chen7Jenq\-Neng Hwang8Zhang Huaping9Lei Li9††thanks:Corresponding authors:lilei@bit\.edu\.cn

###### 摘要

现有信息抽取(IE)任务日益采用基于大语言模型的上下文学习(ICL)。然而,当前方法或在不同模型规模上表现不一致,或缺乏系统优化和泛化能力。基于此,我们提出BCL(面向信息抽取的贝叶斯上下文学习框架),这是首个使用带贝叶斯更新的粒子滤波来系统优化跨IE任务标签表示的优化框架。通过初始化、观测、权重更新和重采样四个步骤,BCL能够泛化到序列标注和关系分类两种范式。大量实验表明,与现有方法相比,BCL实现了显著且一致的性能提升。

BCL: 面向信息抽取的贝叶斯上下文学习框架

Haoliang Liu1\*††thanks:Equal contribution.Chengkun Cai21†footnotemark:1Xu Zhao31†footnotemark:1Han Zhu4Shizhou Huang5††thanks:Important contribution.Xinglin Zhang6Tao Chen7Jenq\-Neng Hwang8Zhang Huaping9Lei Li9††thanks:Corresponding authors:lilei@bit\.edu\.cn

††footnotetext:1HiThink Research2伦敦大学学院
3爱丁堡大学
4香港科技大学
5华东师范大学
6上海影智医疗
7滑铁卢大学8华盛顿大学
9北京理工大学

## 1 引言

近期信息抽取任务依赖于上下文学习(ICL),其中大语言模型(LLM)[Brown等,2020 (https://arxiv.org/html/2606.18620#bib.bib43)]通过上下文信息进行引导。当前方法大致可分为两类:任务迁移方法,即将信息抽取(IE)重构为辅助任务(例如,ChatIE [Wei等,2023 (https://arxiv.org/html/2606.18620#bib.bib76)],CodeIE [Li等,2023a (https://arxiv.org/html/2606.18620#bib.bib67)]);以及基于指南的方法,即提供明确的标注指南(例如,GuideNER [Huang等,2025 (https://arxiv.org/html/2606.18620#bib.bib47)])。

参考图1图1: 先前方法与本文工作的比较。**上**:先前方法将IE任务转换以利用模型更强的代码或对话能力,导致性能依赖于模型特定的优势。**下**:我们的方法通过自动生成的语义模式直接提升IE性能,不论模型在各类任务上的相对优势如何。然而,现有方法存在实际局限性。如图1 (https://arxiv.org/html/2606.18620#S1.F1)(上)所示,任务迁移方法在不同模型规模上表现不一致。虽然在超大规模商业模型上可能有效,但在较小模型上往往不如直接IE提示。在NER任务上,ChatIE相比单次提示有显著性能差距;CodeIE在RE任务上几乎为零的微F1值而失败。这种不一致性使得在使用轻量级模型时部署具有挑战性,而在实际场景中因计算约束,轻量级模型很常见。

基于指南的方法为任务迁移方法提供了替代方案,但现有工作存在关键局限性。GuideNER [Huang等,2025 (https://arxiv.org/html/2606.18620#bib.bib47)]作为当前最先进方法,有显著局限性。首先,它使用简单的基于频率的选择,缺乏对指南质量的系统优化。其次,它专门为NER设计,无法扩展至其他IE任务,这可以从图2 (https://arxiv.org/html/2606.18620#S1.F2) 中缺少RE结果得到证实。这些局限性促使我们需要一个更通用且更优化的方法。

参考图2图2: 不同方法在Qwen-2.5-7B上NER和RE任务的性能对比。Y轴为F1得分(%)。BCL表现出优于基线方法的一致性,而ChatIE和CodeIE在两种任务类型上均有显著退化。GuideNER仅适用于NER任务。基于这些观察,我们引入了自动子类别生成(图1 (https://arxiv.org/html/2606.18620#S1.F1),底部),将标签分解为语义上离散的原子表示。关键洞察在于,IE标签通常是粗粒度的:NER中的“Person”标签在模型的先验理解中可能表示“父亲”或“朋友”等家庭角色,而在特定数据集中,它可能仅指“运动员”或“政治家”等公众人物。为了弥合模型先验知识与数据集标注模式之间的差距,我们使用多个子类别作为原子表示来表达每个标签,这些子类别模式作为规则来阐明标签在上下文中的具体含义。例如,在NER中,“Person”可以由“运动员”和“公众人物”等子类别表示;在RE中,“[FRESNO, Located-In, Calif]”可以分解为“[城市, 空间包含, 州]”和“[子区域, 非对称, 超区域]”。关键的是,通过将标签离散化为语义原子单元,我们可以将标签视为可控的离散变量。这使得我们能够使用优化算法(如粒子滤波)来优化标签表示,其中每条规则是一个带权重的粒子,通过迭代评估和贝叶斯更新来优化。

参考图3图3: BCL框架概览。该框架通过带贝叶斯更新的粒子滤波运行,在观测和控制之间交替,逐步优化语义模式分布。我们提出BCL(面向信息抽取的贝叶斯上下文学习框架),通过四个步骤优化子类别模式(图3 (https://arxiv.org/html/2606.18620#S1.F3)):(1) 初始化——生成初始模式并设置先验权重;(2) 观测——通过基于ICL的IE评估计算似然;(3) 权重更新——通过贝叶斯更新优化权重;(4) 重采样——淘汰低权重粒子,并通过LLM变异增加高性能粒子的多样性。

我们的贡献如下:

- • 我们提出了关键洞察:通过将标签分解为细粒度语义单元,将上下文视为可控离散变量,从而能够应用系统优化方法。
- • 我们开发了首个使用带贝叶斯更新的粒子滤波的优化框架,该框架可跨IE任务泛化,在序列标注和关系分类两种范式上实现系统性的质量提升。
- • 大量实验表明,与现有方法相比(最高提升30%),BCL实现了强性能,而其他方法要么无法泛化,要么效果有限。

## 2 相关工作

### 2.1 面向信息抽取的上下文学习

上下文学习(ICL)使大语言模型能够通过演示样本适应新任务,而无需更新参数[Brown等,2020 (https://arxiv.org/html/2606.18620#bib.bib43);Wei等,2022 (https://arxiv.org/html/2606.18620#bib.bib63);Min等,2022 (https://arxiv.org/html/2606.18620#bib.bib64)]。面向信息抽取的传统ICL方法依赖于基于示例的演示,模型通过模式识别学习输入-输出映射[Dong等,2022 (https://arxiv.org/html/2606.18620#bib.bib28);Li等,2023b (https://arxiv.org/html/2606.18620#bib.bib52)]。

近期工作通过改进演示的构建、检索和过滤策略来提升ICL用于IE的效果。C-ICL [Mo等,2024 (https://arxiv.org/html/2606.18620#bib.bib73)]将正样本和难负样本都纳入演示中;G&O [Li等,2024b (https://arxiv.org/html/2606.18620#bib.bib74)]将生成分解为中间推理和结构化输出,以提高稳定性。GuideNER [Huang等,2025 (https://arxiv.org/html/2606.18620#bib.bib47)]用LLM生成的标注指南替代演示;Dr.ICL [Luo等,2024 (https://arxiv.org/html/2606.18620#bib.bib31)]检索与任务相关的样本来增强推理性能。类似地,MAPS [Chen等,2025 (https://arxiv.org/html/2606.18620#bib.bib32)]引入基于锚点的采样用于细粒度实体链接;而近期基于LLM的特征选择方法[Wang等,2025 (https://arxiv.org/html/2606.18620#bib.bib34)]进一步强调了迭代过滤对结构化抽取的重要性。相关观察也出现在邻近的多模态理解场景中:人体运动指令微调[Li等,2025 (https://arxiv.org/html/2606.18620#bib.bib35)]和多人体运动理解[Li等,2026 (https://arxiv.org/html/2606.18620#bib.bib33)]表明,精心设计的指令和结构化语义监督可以改善复杂运动理解,提示输入组织和指导对于结构化预测具有广泛重要性。

除了演示设计,近期研究还分析了ICL和上下文利用的内在机制。Shi等 (2026 (https://arxiv.org/html/2606.18620#bib.bib29)) 研究了上下文长度缩放中的熵;Cai等 (2025b (https://arxiv.org/html/2606.18620#bib.bib30)) 考察了演绎推理和归纳推理的作用。Lan等 (2025 (https://arxiv.org/html/2606.18620#bib.bib39)) 进一步提出注意力一致性来估计词元重要性,提供了模型在推理过程中如何利用演示的见解。

对于关系抽取,ICL在建模实体间依赖关系和上下文模式方面面临挑战。GPT-RE [Wan等,2023 (https://arxiv.org/html/2606.18620#bib.bib65)] 检索任务感知的演示,并结合标签引导的推理;Li等 (2024a (https://arxiv.org/html/2606.18620#bib.bib75)) 提出召回-检索-推理框架以增强检索与推理。Wadhwa等 (2023 (https://arxiv.org/html/2606.18620#bib.bib66)) 强调了不同提示之间的性能差异;CodeIE [Li等,2023a (https://arxiv.org/html/2606.18620#bib.bib67)] 将IE重新表述为代码生成,但对演示质量敏感。

近期研究表明,LLM可以在复杂场景中进行结构化推理。CountLLM [Yao等,2025 (https://arxiv.org/html/2606.18620#bib.bib40)] 强调了结构化依赖建模;其他工作探索了多跳QA中的检索-推理[Ji等,2026 (https://arxiv.org/html/2606.18620#bib.bib58)]、无需显式元学习的少样本泛化[Guan等,2025 (https://arxiv.org/html/2606.18620#bib.bib42); Guan, 2025 (https://arxiv.org/html/2606.18620#bib.bib53)],以及视觉基础检索增强生成中的结构化上下文[Ji等,2025 (https://arxiv.org/html/2606.18620#bib.bib38)]。这些发现共同凸显了上下文利用的重要性。

### 2.2 控制理论与概率优化

经典控制理论[Åström and Murray, 2021 (https://arxiv.org/html/2606.18620#bib.bib10)] 将复杂系统建模为由反馈机制控制的输入-输出映射,外部控制变量可以在不直接观察内部状态的情况下系统地引导系统行为。粒子滤波[Gordon等,1993 (https://arxiv.org/html/2606.18620#bib.bib8)] 和序列蒙特卡洛方法[Doucet等,2001 (https://arxiv.org/html/2606.18620#bib.bib3)] 通过基于种群的采样和重要性重采样来估计高维非线性系统中的潜在状态。在黑盒优化中,贝叶斯优化[Frazier, 2018 (https://arxiv.org/html/2606.18620#bib.bib7); Xu等,2026 (https://arxiv.org/html/2606.18620#bib.bib21)] 构建了带有采集函数的概率代理模型来指导采样;近似贝叶斯计算[Beaumont等,2002 (https://arxiv.org/html/2606.18620#bib.bib6); Liu, 2026 (https://arxiv.org/html/2606.18620#bib.bib22)] 则实现了复杂模型的无似然推断。这些方法共享一个共同原则:通过输入-输出观察来优化系统行为,而无需访问内部机制。进化提示优化[Qi等,2024 (https://arxiv.org/html/2606.18620#bib.bib54)] 将基于种群的搜索应用于LLM行为,但缺乏系统的控制理论基础,且侧重于推理任务而非结构化预测。相比之下,我们的工作将控制理论原理与序列蒙特卡洛方法相结合,以优化少样本学习中的演示选择。

近期工作开始将这些原理应用于控制LLM行为。例如,Cai等 (2025a (https://arxiv.org/html/2606.18620#bib.bib41)) 利用贝叶斯优化在黑盒设置下引导LLM驱动的图像编辑过程,展示了概率搜索用于可控生成的有效性。

### 2.3 大语言模型行为的优化方法

已有多种优化策略被探索用于LLM行为控制[Zhao等,2026 (https://arxiv.org/html/2606.18620#bib.bib44); Cao and Zhao, 2025 (https://arxiv.org/html/2606.18620#bib.bib46)]。微调[Wei等,2021 (https://arxiv.org/html/2606.18620#bib.bib49)] 需要大量资源和标注数据,限制了少样本适用性。提示工程[Zhou等,2022 (https://arxiv.org/html/2606.18620#bib.bib13); Pryzant等,2023 (https://arxiv.org/html/2606.18620#bib.bib9)] 依赖于人工努力或局部搜索启发式;进化算法[Qi等,2024 (https://arxiv.org/html/2606.18620#bib.bib54)] 探索提示空间,但缺乏针对结构化预测的系统指南优化。现有方法依赖于缺乏控制理论基础的启发式策略[Zhao等,2021 (https://arxiv.org/html/2606.18620#bib.bib12)]。尽管RLHF [Ouyang等,2022 (https://arxiv.org/html/2606.18620#bib.bib11)] 和偏好优化[Rafailov等,2023 (https://arxiv.org/html/2606.18620#bib.bib2)] 解决了对齐问题,但它们修改模型参数,而非优化外部控制输入(如演示选择规则)。

## 3 方法:BCL

我们的BCL框架包含一种全面的基于控制理论的规则优化方法,如图3 (https://arxiv.org/html/2606.18620#S1.F3) 和图4 (https://arxiv.org/html/2606.18620#S3.F4) 所示。图3 (https://arxiv.org/html/2606.18620#S1.F3) 展示了自适应滤波过程的算法概览,包括四个关键步骤;图4 (https://arxiv.org/html/2606.18620#S3.F4) 展示了基于粒子的优化流水线,包括迭代生成、评估、选择和变异阶段。

参考图4图4: BCL的整体框架,展示了基于粒子的规则优化流水线,包括迭代生成(粒子生成器)、评估(后验概率计算器)、选择(保留)和变异(重采样器)阶段,由LLM性能反馈指导。

### 3.1 问题形式化

给定一个预训练的大语言模型M\\mathcal\{M\}和一个目标数据集D=\{\(xi,yi\)\}i=1N\\mathcal\{D\}=\\\{\(x\_\{i\},y\_\{i\}\)\\\}\_\{i=1\}^\{N\},包含训练集Dtrain\\mathcal\{D\}\_\{train\}、开发集Ddev\\mathcal\{D\}\_\{dev\}和测试集Dtest\\mathcal\{D\}\_\{test\},目标是找到一个最优规则列表R∗\\mathcal\{R\}^\{\*\},使模型在开发集上的信息抽取性能最大化,然后评估其在测试集上的泛化性能。

相似文章

什么是行为克隆(BC)?我们如何使用它?

ML at Berkeley

本文介绍了行为克隆(Behavioral Cloning),这是一种模仿学习技术,用于从专家演示中训练策略。文章讨论了其在最大似然估计中的理论基础,以及其在 AlphaGo 等历史应用中的使用情况。

贝叶斯模型合并

arXiv cs.LG

介绍贝叶斯模型合并(BMM),这是一个即插即用的双层优化框架,用于将多个任务特定的专家模型合并为一个单一模型,在视觉和语言基准测试上实现了最先进的性能。