流式知识编译：面向时变LLM维基的主动重要性评分固定

arXiv cs.LG 2026/06/10 04:00 论文

摘要

本文形式化了LLM维基的流式知识编译，引入了一个重要性信号，用于在token预算下从流式语料库中主动固定重要文档。它证明了O(√(T log K))的遗憾界，并在金融和维基百科领域验证了该方法，表明遗憾分析是一种可靠的评估指标。

arXiv:2606.09877v1 公告类型：新摘要：LLM维基系统将知识编译到预填充的KV缓存中以实现高效推理，但假设语料库是静态的——这一假设在底层信息格局发生变化时失效。我们形式化了流式知识编译：给定一个文档流、一个固定的token预算以及在摄取时未知的未来查询，维护一个编译后的维基，使其针对具有完美预见性的离线基准的累计遗憾最小化。实现这一点的关键是一个重要性信号 $\phi_t(k,n)\in[0,1]$，它对实体 $k$ 在时间 $t$ 的文档重要性进行评分，作为查询相关性的代理，用于在查询到达前主动固定文档；我们证明了 $O(\sqrt{T\log K})$ 的遗憾界，其中 $\varepsilon=\mathbb{E}[|\phi_t-\hat\phi_t|]$ 是唯一与领域相关的量。我们在两个领域进行了实例化：金融领域，其中 $\phi_t$ 是由冻结的Llama 3.1 8B分类头预测的异常股票波动率（在76K篇文章上的AUROC=0.728，严格时间划分；对于预测为重要的文章，实现的前向波动率高出1.49倍）；以及维基百科领域，其中 $\phi_t$ 是异常编辑比率（AER），一种横截面标准化的编辑速度——表明相同的算法可以推广到金融领域之外。在173对匹配样本（金融）和119对（维基百科）上的端到端QA评估揭示了LLM作为评判者对训练后知识的普遍混淆，确定了遗憾分析——而非绝对QA得分——是已编译知识系统的可靠评估指标。金融累计遗憾收敛至-20.0（-0.12/步）；维基百科收敛至+16.0（+0.13/步），正号确认了维基百科的编辑内容确实是训练后的——更丰富的上下文持续提高得分（无维基3.80 vs. 基准4.74）——并消除了这种混淆。$O(\sqrt{T\log K})$ 保证适用于任何可以从流信号中预测知识差距的领域。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:15

# 流式知识编译：面向时变LLM维基的主动实质性评分固定机制

**来源**: https://arxiv.org/html/2606.09877

**Juan M. Huerta**  
Zinnia Tech Solutions  
600 Steamboat Road, Greenwich, CT 06830, USA  
[email protected]

###### 摘要

LLM维基系统通过预填充KV缓存来编译知识，从而支持高效推理，但其前提是语料库保持静态——当底层信息格局持续演变时，这一假设便不再成立。我们将*流式知识编译*形式化：给定文档流、固定token预算以及摄取时未知的未来查询，维护一个编译后的维基，最小化与具备完美预见力的离线神谕之间的累积遗憾。核心洞察在于一个*实质性信号*φt(k,n)∈[0,1]，该信号对实体k在时间t的文档n的信息重要性进行评分，并作为查询相关性的代理，允许在查询到达前进行主动固定；我们证明了一个O(√(T log K))的遗憾界，其中预测误差项ε = E[|φt - φ̂t|]是唯一的领域特定量。我们在两个领域实例化该框架：*金融领域*，其中φt是由冻结的Llama 3.1 8B分类头预测的异常股票波动率（AUROC=0.728，基于76K篇文章，严格时间划分；预测为实质性文章的实际向前波动率高出1.49倍）；以及*维基百科领域*，其中φt是异常编辑比（AER），一种横截面归一化的编辑速度——证明同一算法在不同信号下适用于非金融流式语料库。在173个匹配对（金融）和119个匹配对（维基百科）上的端到端QA评估揭示了一种普遍的LLM作为裁判的混淆效应（针对训练后事实），从而确立了遗憾分析——而非绝对QA分数——是编译知识系统可靠的评估指标。金融累积遗憾收敛至-20.0（-0.12/步）；维基百科遗憾为+16.0（+0.13/步），正号确认维基百科编辑内容确实是训练后的——更丰富的上下文持续提高分数（无维基3.80对比神谕4.74）——消除了金融评估中存在的混淆。预测性CEGAR形式化及O(√(T log K))保证适用于任何可以从流式信号预测知识差距的领域。

## 1 引言

LLM维基系统的出现（Huerta, 2026；Chan等人, 2025）为检索增强生成（RAG）（Lewis等人, 2020）提供了一种引人注目的替代方案：不是在查询时检索文档，而是将语料库*编译*为结构化维基，并预填充LLM的KV缓存，从而在不产生检索延迟的情况下实现快速、有依据的推理。WiCER算法（Huerta, 2026）通过受反例引导抽象精化（CEGAR）（Clarke等人, 2000）启发的迭代*编译-评估-精化*循环形式化了这一编译过程：编译维基，针对探测问题评估，诊断缺失事实，*固定*它们，然后重新编译。该框架隐式假设底层语料库是*静态*的。

在实践中，这一假设在许多高价值领域中均不成立。考虑一个面向50只股票投资组合的金融分析师维基，于周五晚上编译完成：到了周一早晨，可能已宣布司法部反垄断调查、报告了盈利惊喜或CEO离职。考虑一个用于临床决策支持的医学知识库：药物召回、临床试验结果或更新的剂量指南可能在一夜之间到达。考虑一个基于维基百科的QA系统：在重大事件发生时，主要AI公司或地缘政治事件的页面可能在一天内接收数百次编辑。在每种情况下，维基在尚未被查询之前就已经过时，而根本挑战不仅仅在于*更新*它——而是在固定的token预算内决定每天数百篇文档中*哪些*应被纳入。

我们的关键洞见是：CEGAR的“反例”无需通过QA失败被动发现。一个*实质性信号*φt(k,n)∈[0,1]——对时间t时实体k的文档n的信息重要性进行评分——可以作为查询相关性的代理，从而在任何查询暴露出知识差距之前实现主动固定。该信号的具体内容是领域特定的：在金融领域，它是异常股票波动率；在维基百科领域，它是异常编辑速度。但算法、理论和保证完全与这一选择无关。这将WiCER的精化循环从被动诊断转变为*主动、预测驱动的*知识维护。

我们引入*在线WiCER*，一种在连续新闻流上运行的算法：
1. 挖掘：从输入的新闻文章中提取候选事实。
2. 评分：使用状态感知评分器评估每个事实的*边际*价值：一个位于相同冻结骨干网络上的回归头，以当前固定集为条件，估计每个候选在当前已固定内容下的预期遗憾减少量。
3. 固定：在token预算下，贪心地选择最大化边际遗憾减少的事实，并通过衰减加权优先级队列驱逐过时的固定项。
4. 编译：每天执行增量维基更新，每Tr步执行一次完整的WiCER重新编译。

##### 贡献。
1. 将*流式知识编译*形式化为一个预算受限的在线优化问题：针对流式语料库维护编译后的维基，最小化相对于具备完美预见力的神谕的遗憾，并从领域特定的实质性信号φt出发做出主动固定决策（§3）。
2. *在线WiCER算法*：主动实质性评分固定、衰减加权驱逐以及定期WiCER重新编译，具有形式化收敛保证（§4）。
3. *状态感知的边际遗憾评分器*：冻结骨干网络上的回归头，以当前固定集为条件，支持贪心固定选择规则，并具有(1-1/e)子模近似保证（§4.3）。
4. *遗憾分解定理*：证明O(√(T log K))累积遗憾，其中唯一的领域特定项是预测误差ε = E[|φt - φ̂t|]，确立了该框架适用于任何有界实质性信号（§5）。
5. *预测性CEGAR*的形式化，将反应式CEGAR范式扩展到主动、预测驱动的精化，适用于任何可以从流式信号预测知识差距的领域（§4.7）。
6. *金融实例化*：以异常股票波动率作为φt，由冻结的Llama 3.1 8B分类头评分（AUROC = 0.728，严格时间划分，预测为实质性文章的实际波动率比值为1.49倍）；173个匹配对的累积遗憾收敛至-20.0（平均值-0.12/步）（§6.1）。
7. *维基百科实例化*：以异常编辑比（AER）作为φt，证明相同算法在非金融、公开可用的流式语料库上实现了次线性遗憾（§6.2）。
8. *方法论发现*：LLM作为裁判的评估在训练后事实上存在混淆；匹配对上的遗憾分析是编译知识系统的可靠指标，其中骨干网络的参数化记忆是一个混淆因素（§7.1.8）。

## 2 相关工作

##### 知识编译与LLM维基。
RAG（Lewis等人, 2020）在查询时检索相关文档，引入延迟和检索噪声。缓存增强生成（CAG）（Chan等人, 2025）和LLM维基模式通过预填充KV缓存存入编译知识，以编译成本换取推理速度。RAPTOR（Sarthi等人, 2024）构建层次化摘要；GraphRAG（Edge等人, 2024）构建知识图谱。WiCER（Huerta, 2026）通过受CEGAR启发的固定引入了迭代精化。所有这些都假设语料库是静态的。我们将WiCER扩展到流式场景。

##### 金融NLP与基于LLM的预测。
FinBERT（Araci, 2019）使BERT（Devlin等人, 2019）适应金融情感分析；BloombergGPT（Wu等人, 2023）在金融数据上训练领域特定的LLM。近期工作探索了LLM用于股票预测（Lopez-Lira和Tang, 2023；Xie等人, 2023）以及金融指令微调（Zhang等人, 2023；Yang等人, 2023）。来自Llama家族的LLM嵌入可预测横截面收益，优于词嵌入基线（Chen等人, 2022）；带有轻量级分类头的解码器LLM在大股票集合上被证明优于编码器模型（Guo和Hauptmann, 2024）。时间有效性日益受到关注：He等人（2025）证明标准预训练LLM编码了未来信息，这促使我们采用严格的时间训练/测试划分（§6）。Li等人（2024）通过基于LLM的去噪编码器沿五个轴（包括事件重要性和价格影响持续时间）对新闻评分；Wang等人（2024b）通过LLM反思迭代地过滤新闻并将其与时间序列波动对齐，这一循环在结构上类似于我们的流式固定周期。相反，Tan等人（2024）表明，用LLM简单替代时间序列预测并不能提升性能——这凸显了我们设计选择中将LLM仅用于文本实质性评分而非价格动态。我们利用NLP信号不是为了交易，而是为了*知识策展*——预测哪些新闻项目会导致异常波动，从而值得纳入维基。我们没有使用独立的编码器模型进行分类，而是在用于维基编译的同一冻结LLM之上训练一个轻量级分类头，从而形成统一单模型架构。

##### 波动率的正式定量模型。
波动率在定量金融中具有基础性作用，这激励了我们将其用作实质性信号。Engle（1982）建立了收益方差时变且可自预测的模型（ARCH模型；2003年诺贝尔经济学奖）；Bollerslev（1986）将其推广为GARCH，现已成为衍生品定价和市场风险管理的标准引擎。Black和Scholes（1973）表明波动率是期权定价中唯一不可观测的输入——使其预测直接可货币化——而随机波动率模型（Heston, 1993）将其扩展到潜在方差过程，进一步放大了对准确预测的需求。已实现波动率框架（Andersen和Bollerslev, 1998；Barndorff-Nielsen和Shephard, 2002）将波动率估计建立在从高频OHLCV价格数据计算的无模型度量之上；这正是我们如何从雅虎财经数据计算5天向前已实现波动率的方式。Corsi（2009）提出了HAR模型，捕捉已实现波动率的多尺度（日、周、月）持续性；对于该任务，ML模型显著优于HAR（Christensen等人, 2023），这激励了我们采用分类头而非自回归基线。我们的异常波动率比（AVR，方程1）继承了这一已实现波动率基础，并应用横截面归一化以将公司特定信息事件与市场范围波动区分开来，连接了高频估计文献（Boudoukh等人, 2019）与我们的知识策展应用。

##### 新闻驱动的波动率预测。
越来越多的文献表明，新闻文本预测股票*波动率*比预测价格方向更可靠。Atkins等人（2018）直接证明，从金融新闻预测波动率的准确率为56%，而价格方向仅为49%（随机水平）。Glasserman和Mamaysky（2019）表明，*异常*新闻内容——通过信息论散度衡量——可预测未来数月升高的公司特定和总体波动率。Manela和Moreira（2017）利用华尔街日报头版（覆盖1890-2009年）构建了基于文本的波动率指数（NVIX）。Bodilsen和Lunde（2025）用新闻情感增强HAR模型，在多日预测范围上实现了大幅改进。Xing等人（2019）提出了一种使用变分贝叶斯的情感感知波动率模型。在宏观层面，Baker等人（2016）构建了基于新闻的政策不确定性指数，该指数可预测市场波动率；Bybee等人（2024）通过主题建模分析了80万篇WSJ文章，以预测商业周期和市场动态。Boudoukh等人（2019）将公司特定新闻分解为基础性vs.非基础性类别，发现基础性新闻解释了夜间特质已实现波动率的近一半——这直接激励了我们采用的实质性过滤设计。在预测方面，ML模型显著优于HAR家族用于已实现波动率（Christensen等人, 2023），而股票数据的横截面池化进一步改善了神经预测（Zhang等人, 2024）；我们的横截面异常波动率定义（方程1）利用了相同的横截面结构。然而，我们的工作与波动率*预测*不同：我们使用异常波动率作为知识策展的*固定信号*，而非交易目标。

##### 波动率作为信息信号。
SEC将信息定义为“实质性”，如果理性投资者会认为其重要。经验上，异常股票波动率是信息相关性（Khan等人, 2016）的稳健代理。

流式知识编译：面向时变LLM维基的主动重要性评分固定

相似文章

WiCER：面向 LLM Wiki 系统的 Wiki 记忆编译、评估与精炼迭代式知识编译

ProactiveLLM: 学习主动交互的流式大语言模型

面向上下文LLM级联的在线Pandora's Box

LLM Wiki v2（16分钟阅读）

谁的事实能赢？知识冲突下大语言模型的信息源偏好

提交意见反馈