FACTS: 通过离线模板生成和智能体工作流的表格总结

arXiv cs.CL 2026/04/20 04:00 论文

摘要

FACTS 引入了一种用于查询聚焦表格总结的智能体工作流，生成结合 SQL 查询和 Jinja2 模板的可复用离线模板，实现快速、准确且隐私合规的总结，无需暴露敏感数据。该方法通过避免昂贵的微调和 token 限制问题，同时保持跨共享模式表格的可扩展性，优于现有基准方法。

arXiv:2510.13920v2 公告类型：替换摘要：查询聚焦表格总结需要生成以用户查询为条件的表格数据自然语言摘要，使用户能够获得超越事实检索的见解。现有方法存在关键限制：表格转文本模型需要昂贵的微调且难以处理复杂推理、基于提示的 LLM 方法存在 token 限制和效率问题同时暴露敏感数据，以及之前的智能体管道通常依赖分解、规划或手动模板，缺乏鲁棒性和可扩展性。为了解决这些问题，我们引入了一种智能体工作流 FACTS，即通过离线模板生成的快速、准确、隐私合规表格总结方法。FACTS 产生离线模板，由 SQL 查询和 Jinja2 模板组成，可以渲染为自然语言摘要，并且可在共享相同模式的多个表格间复用。它通过可复用的离线模板实现快速总结，通过可执行的 SQL 查询实现准确输出，并通过仅向 LLM 发送表格模式来实现隐私合规。在广泛使用的基准上的评估表明，FACTS 持续优于基准方法，确立了其作为实际查询聚焦表格总结解决方案的实用价值。我们的代码可在 https://github.com/BorealisAI/FACTS 获得。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:31

# FACTS: 通过离线模板生成的表格摘要总结与代理工作流

来源：https://arxiv.org/html/2510.13920

Ye Yuan McGill University Mila - Quebec AI Institute & Mohammad Amin Shabani RBC Borealis & Siqi Liu RBC Borealis

###### 摘要

查询焦点表格摘要总结需要根据用户查询生成表格数据的自然语言摘要，使用户能够获得超越事实检索的洞见。现有方法存在关键限制：表格转文本模型需要昂贵的微调且在复杂推理中表现不佳，基于提示的大语言模型(LLM)方法存在令牌限制和效率问题，同时暴露敏感数据，先前的代理管道通常依赖于分解、规划或手动模板，缺乏鲁棒性和可扩展性。为了解决这些问题，我们引入了一个代理工作流FACTS(通过离线模板生成的快速、准确且隐私合规的表格摘要)。FACTS生成*离线模板*，由SQL查询和Jinja2模板组成，可以呈现为自然语言摘要，并可在共享相同模式的多个表格中重复使用。它通过可重复使用的离线模板实现快速摘要总结，通过可执行的SQL查询确保准确输出，并通过仅向LLM发送表格模式来保证隐私合规。在广泛使用的基准测试上的评估表明，FACTS持续优于基准方法，将其确立为实际查询焦点表格摘要总结的实用解决方案。我们的代码见https://github.com/BorealisAI/FACTS。

FACTS: 通过离线模板生成的表格摘要总结与代理工作流

Ye Yuan††感谢：在RBC Borealis实习期间完成的工作。对应[email protected] (https://arxiv.org/html/2510.13920v2/mailto:[email protected])。McGill University Mila - Quebec AI Institute Mohammad Amin Shabani RBC Borealis Siqi Liu RBC Borealis

## 1 引言

参见图1：DirectSumm (Zhang et al., 2024 (https://arxiv.org/html/2510.13920#bib.bib15))(左) 与我们提议的FACTS框架(右)的比较。DirectSumm用完整表格和查询提示大语言模型(LLM)，可能产生幻觉值，将所有表格记录暴露给外部服务，即使在相同模式和查询下，也需要为每个新表格进行重新生成。相比之下，FACTS生成一个可重复使用的离线模板，由模式感知SQL查询和Jinja2模板组成。SQL查询通过执行检索精确值，而Jinja2模板呈现自然语言摘要，确保准确性、可重复使用性、可扩展性和隐私合规性。

查询焦点表格摘要总结需要根据用户查询生成表格数据的自然语言摘要，使用户能够获得超越事实检索的洞见(Zhao et al., 2023 (https://arxiv.org/html/2510.13920#bib.bib10))。与旨在捕获所有显著表格内容的通用表格摘要(Lebret et al., 2016 (https://arxiv.org/html/2510.13920#bib.bib33); Moosavi et al., 2021 (https://arxiv.org/html/2510.13920#bib.bib34))不同，查询焦点摘要适应多样化的用户意图。与通常返回简短事实答案的表格问答(Pasupat and Liang, 2015 (https://arxiv.org/html/2510.13920#bib.bib7); Nan et al., 2022 (https://arxiv.org/html/2510.13920#bib.bib37))相比，查询焦点摘要需要更丰富的推理和解释性叙述。这种区别在金融、医疗和法律等现实领域尤其关键，专业人士依赖定制摘要进行决策。例如，在金融机构中，分析师可能请求总收入摘要，每个摘要对应过去十年中的每一年，提供如图1所示的用户查询(左上)。

我们主张实用解决方案必须高效处理大型数据集，支持可重复使用性，确保输出的正确性，并保护敏感信息。这四个属性对于实践中的查询焦点表格摘要总结方法至关重要。首先，该方法必须快速，能够在具有相同模式的表格间重复使用，并能扩展到超大表格，无需将所有行传递给语言模型。其次，它必须准确，将摘要锚定在可执行操作而非自由形式文本生成上。第三，它必须符合隐私保护，因为HIPAA和GDPR等法规禁止向外部LLM服务暴露个人级别的记录。在许多情况下，只能暴露用户查询或表格模式。然而现有方法均存不足。表格转文本模型(Liu et al., 2022b (https://arxiv.org/html/2510.13920#bib.bib20); Zhao et al., 2022 (https://arxiv.org/html/2510.13920#bib.bib21); Jiang et al., 2022 (https://arxiv.org/html/2510.13920#bib.bib22))需要昂贵的微调，仍在数值推理和逻辑保真度上表现不佳。基于提示的方法(Zhao et al., 2023 (https://arxiv.org/html/2510.13920#bib.bib10); Zhang et al., 2024 (https://arxiv.org/html/2510.13920#bib.bib15))直接查询强大的LLM，但面临令牌限制和效率问题，同时暴露表格敏感数据。流行的代理框架(Cheng et al., 2023 (https://arxiv.org/html/2510.13920#bib.bib23); Ye et al., 2023 (https://arxiv.org/html/2510.13920#bib.bib25); Zhao et al., 2024 (https://arxiv.org/html/2510.13920#bib.bib24); Zhang et al., 2025 (https://arxiv.org/html/2510.13920#bib.bib26))通过将输出锚定在SQL或Python执行中来缓解某些挑战，但大多数依赖于分解、自然语言规划或手动模板设计，缺乏鲁棒性和可扩展性。回到之前的例子，DirectSumm这样的方法需要对十个年份表格进行十次单独的LLM生成，所有值都暴露给模型，导致效率低下和隐私风险，如图1(左)所示。

为了解决这些挑战，我们推出了FACTS(通过离线模板生成的快速、准确且隐私合规的表格摘要)。FACTS采用具有三个阶段的代理工作流。首先，它生成模式感知的引导问题和筛选规则以澄清用户查询意图。其次，它合成SQL查询以从表格中提取相关信息。第三，它生成Jinja2模板以将SQL输出呈现为自然语言。关键的是，FACTS集成了一个LLM委员会，这是一个LLM集合，在每个阶段迭代验证和改进输出。这个反馈循环确保了生成工件的正确性、一致性和可用性。最终产品是由SQL查询和Jinja2模板组成的离线模板，可在给定查询的任何具有相同模式的表格中重复使用。回到我们的例子，由FACTS生成的离线模板可以总结十个年份表格中的总收入，避免重复的LLM调用，同时确保准确且符合隐私保护的输出(图1(右))。

据我们所知，FACTS是第一个自动化离线模板生成以进行查询焦点表格摘要总结的代理框架。我们在三个公共基准上评估FACTS：FeTaQA(Nan et al., 2022 (https://arxiv.org/html/2510.13920#bib.bib37))、QTSumm(Zhao et al., 2023 (https://arxiv.org/html/2510.13920#bib.bib10))和QFMTS(Zhang et al., 2024 (https://arxiv.org/html/2510.13920#bib.bib15))。实验结果表明FACTS持续优于代表性基准，证明其对现实查询焦点表格摘要总结的实用性。

总结一下，我们的贡献如下：(1)我们提议离线模板生成，其生成以隐私合规方式适用于具有相同模式的新表格的可重复使用的模式特定模板，实现了到大型表格的可扩展性和跨重复查询的效率。(2)我们设计了FACTS，一个集成引导问题生成、SQL合成和Jinja2呈现的代理工作流，由迭代反馈循环支持以确保正确性。(3)我们通过在FeTaQA、QTSumm和QFMTS上的全面实验证明了FACTS的实用性，相比代表性基准展示了有希望的改进。

## 2 相关工作

本节回顾与我们研究相关的先前工作。我们首先将查询焦点表格摘要总结置于更广泛的表格摘要和问答格局中。然后我们调查现有方法并将这些范式与我们提议的框架进行比较。

#### 查询焦点表格摘要总结。

表格转文本生成研究主要旨在将结构化表格转换为自然语言陈述或摘要(Parikh et al., 2020 (https://arxiv.org/html/2510.13920#bib.bib30); Chen et al., 2020 (https://arxiv.org/html/2510.13920#bib.bib31); Cheng et al., 2022b (https://arxiv.org/html/2510.13920#bib.bib32); Lebret et al., 2016 (https://arxiv.org/html/2510.13920#bib.bib33); Moosavi et al., 2021 (https://arxiv.org/html/2510.13920#bib.bib34); Suadaa et al., 2021 (https://arxiv.org/html/2510.13920#bib.bib35))。这些工作通常针对单句描述或特定领域摘要，主要目标是改进流畅性和事实一致性。然而，此类输出不是为用户的具体信息需求量身定制的。相反，表格问答(Pasupat and Liang, 2015 (https://arxiv.org/html/2510.13920#bib.bib7); Iyyer et al., 2017 (https://arxiv.org/html/2510.13920#bib.bib36); Nan et al., 2022 (https://arxiv.org/html/2510.13920#bib.bib37))专注于回答精确的基于事实的查询，通常返回简短值或实体。虽然表格问答捕获查询意图，但它缺乏提供更长形式推理或解释性摘要的能力。为了解决这一差距，Zhao et al. (2023 (https://arxiv.org/html/2510.13920#bib.bib10))引入了查询焦点表格摘要总结任务，其中模型根据表格和用户查询生成叙述风格摘要。与通用表格摘要相比，查询焦点表格摘要总结明确考虑多样化的用户意图，与表格问答相比，它生成扩展摘要而非最少答案。

#### 现有方法。

现有工作可以广泛分为三类。(1)*表格转文本模型*调整语言模型以更好地捕获表格结构和推理。TAPEX(Liu et al., 2022b (https://arxiv.org/html/2510.13920#bib.bib20))用大规模合成SQL执行数据扩展BART，改进组合推理。ReasTAP(Zhao et al., 2022 (https://arxiv.org/html/2510.13920#bib.bib21))遵循类似思想但使用合成QA语料库以增强逻辑理解。OmniTab(Jiang et al., 2022 (https://arxiv.org/html/2510.13920#bib.bib22))结合自然和合成QA信号以实现更稳健的预训练。FORTAP(Chen et al., 2022a (https://arxiv.org/html/2510.13920#bib.bib27))利用电子表格公式作为监督以加强数值推理。PLOG(Liu et al., 2022a (https://arxiv.org/html/2510.13920#bib.bib29))引入两阶段策略：首先从表格生成逻辑形式，然后将其转换为自然语言，以改进摘要中的逻辑保真度。(2)*基于提示的模型*直接依赖大语言模型(LLM)与精心设计的提示。ReFactor(Zhao et al., 2023 (https://arxiv.org/html/2510.13920#bib.bib10))提取查询相关事实并将其与查询连接以指导生成。DirectSumm(Zhang et al., 2024 (https://arxiv.org/html/2510.13920#bib.bib15))一步生成摘要，从表格和查询直接合成文本。Reason-then-Summ(Zhang et al., 2024 (https://arxiv.org/html/2510.13920#bib.bib15))将任务分解为两个阶段，首先检索相关事实，然后组成更长摘要。(3)*代理框架*使用SQL或Python等外部工具以确保准确性。Binder(Cheng et al., 2023 (https://arxiv.org/html/2510.13920#bib.bib23))将输入查询转译为可执行程序(通常是SQL)以将结果锚定在计算中。Dater(Ye et al., 2023 (https://arxiv.org/html/2510.13920#bib.bib25))将复杂查询分解为较小子查询，分别执行它们，并汇总输出。TaPERA(Zhao et al., 2024 (https://arxiv.org/html/2510.13920#bib.bib24))构建转换为Python程序的自然语言计划以在聚合前执行。SPaGe(Zhang et al., 2025 (https://arxiv.org/html/2510.13920#bib.bib26))超越自由形式计划，通过引入结构化表示和基于图的执行，改进多表场景中的可靠性。附录A中的表2将我们提议的FACTS与代表性方法使用四个标准进行对比。*可重复使用*：适用于具有相同模式的新表格的工件；*可扩展*：无需馈送所有行即可处理超大表格的能力；*准确*：通过可执行程序的正确性；*隐私合规*：避免向LLM暴露原始表格内容。大多数先前方法在一个或多个维度上不足：表格转文本和基于提示的模型缺乏所有四个特性；代理框架改进准确性但牺牲可扩展性和隐私；基于计划的方法(如TaPERA和SPaGe)仅产生部分可重复使用的计划。FACTS是唯一满足所有四个期望属性的方法。

## 3 方法论

示例1：由FACTS在QFMTS数据集上生成的离线模板(Zhang et al., 2024 (https://arxiv.org/html/2510.13920#bib.bib15))。SQL查询检索储蓄余额最高的前三个账户，Jinja2模板将结果呈现为自然语言。

SQL查询：
```
- SELECT a."name", s."balance" FROM "ACCOUNTS" a JOIN "SAVINGS" s ON CAST(a."custid" AS DOUBLE) = s."custid" ORDER BY s."balance" DESC, a."name" ASC LIMIT 3;
```

Jinja2模板：
```
{% if values and values|length > 0 %}
The three accounts with the highest savings balances are:
{% for row in values %}
- {{ row["name"] }} with a savings balance of {{ row["balance"] }}.
{% endfor %}
Overall, these represent the top savers by balance in the dataset.
{% else %}
No results were found for the requested top savings accounts.
{% endif %}
```

为了避免歧义，我们首先澄清本节使用的术语。*用户查询*表示用户提供的自然语言输入，指定一个或多个表格上的信息需求，可能包括丰富的上下文细节。*SQL查询*指我们方法生成的可执行代码以检索满足用户查询所需的信息。*Jinja2模板*是将SQL输出转化为自然语言的呈现程序。*离线模板*是本工作引入的复合工件，将一个或多个SQL查询与Jinja2模板捆绑在一起。除非另行说明，*模式*指表格的结构元数据，如列名和数据类型，而非原始值。最后，*摘要*表示在执行SQL查询并呈现Jinja2模板后返回给用户的最终自然语言输出。

本节其余部分的结构如下：第3.1节介绍离线模板的概念及其可重复使用性的动机；第3.2节详细介绍LLM委员会，其提供迭代验证和反馈；第3.3节呈现完整的FACTS框架及其三个模块。

### 3.1 离线模板

FACTS: 通过离线模板生成和智能体工作流的表格总结

相似文章

从无查询摘要数据集生成查询聚焦摘要数据集

从数据到洞察：探索程序思维提示在图表摘要中的应用

ScholarSum：基于知识图谱推理与反思式优化的师生式抽象摘要生成

Structure-Aware RAG: 用于对话代理的噪声数据结构化检索增强生成

TabClaw：用于电子表格操作和表格推理的交互式自进化智能体

提交意见反馈