TabClaw:用于电子表格操作和表格推理的交互式自进化智能体

arXiv cs.CL 论文

摘要

TabClaw 是一个开源的交互式 AI 智能体,用于电子表格操作和表格推理,利用 LLM 自动化数据分析,支持多表格推理,并通过记忆和技能提取适应个人偏好。

arXiv:2606.10316v1 公告类型:新 摘要:电子表格和表格是结构化数据分析中广泛使用的表示形式,但有效的分析仍需要大量的人工劳动和领域知识。最近的大语言模型智能体可以自动化此过程的某些部分,但它们通常在中间决策上提供有限的透明度,依赖隐含假设,难以进行多表格比较,并且重复类似的工作流程而不适应个人偏好。本文提出了 TabClaw,一个开源的交互式 AI 智能体,用于电子表格操作和表格推理。用户可以上传 CSV 或 Excel 文件并发出自然语言请求;TabClaw 澄清模糊意图,展示可编辑的执行计划,流式传输 ReAct 风格的工具使用分析循环,派遣专用智能体进行并行多表格推理,并通过明确的共识和不确定性标记综合发现。除了单次分析外,TabClaw 记录已完成的工作流程,提取持久的用户记忆,从重复的工具使用模式中提取可重用的技能,支持包式技能导入,并从负面反馈中升级技能。在电子表格操作和表格推理基准上的实验表明,TabClaw 提高了可执行任务完成和推理性能,同时保持了可检查的用户工作流程。本文展示了 TabClaw 如何将电子表格和表格转化为可检查的分析工作流程,同时逐步个性化以适应重复的数据分析任务。我们的代码已开源。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:10

# TabClaw:用于电子表格操作和表格推理的交互式自进化智能体

来源:https://arxiv.org/html/2606.10316

Mingyue Cheng0000-0001-9873-7681 (https://orcid.org/0000-0001-9873-7681)  
认知智能国家重点实验室,中国科学技术大学  
合肥,中国  
[email protected] (https://arxiv.org/html/2606.10316v1/mailto:[email protected])

Shuo Yu0009-0006-1060-5451 (https://orcid.org/0009-0006-1060-5451)  
认知智能国家重点实验室,中国科学技术大学  
合肥,中国  
[email protected] (https://arxiv.org/html/2606.10316v1/mailto:[email protected])

Daoyu Wang0009-0002-0452-0516 (https://orcid.org/0009-0002-0452-0516)  
认知智能国家重点实验室,中国科学技术大学  
合肥,中国  
[email protected] (https://arxiv.org/html/2606.10316v1/mailto:[email protected])

Qingchuan Li0009-0009-9747-0888 (https://orcid.org/0009-0009-9747-0888)  
认知智能国家重点实验室,中国科学技术大学  
合肥,中国  
[email protected] (https://arxiv.org/html/2606.10316v1/mailto:[email protected])

Xiaoyu Tao0009-0000-0634-6254 (https://orcid.org/0009-0000-0634-6254)  
认知智能国家重点实验室,中国科学技术大学  
合肥,中国  
[email protected] (https://arxiv.org/html/2606.10316v1/mailto:[email protected])

Qingyang Mao0000-0002-6922-856X (https://orcid.org/0000-0002-6922-856X)  
认知智能国家重点实验室,中国科学技术大学  
合肥,中国  
[email protected] (https://arxiv.org/html/2606.10316v1/mailto:[email protected])

Yitong Zhou0009-0007-6579-1092 (https://orcid.org/0009-0007-6579-1092)  
认知智能国家重点实验室,中国科学技术大学  
合肥,中国  
[email protected] (https://arxiv.org/html/2606.10316v1/mailto:[email protected])

以及 Qi Liu0000-0001-6956-5550 (https://orcid.org/0000-0001-6956-5550)  
认知智能国家重点实验室,中国科学技术大学  
合肥,中国  
[email protected] (https://arxiv.org/html/2606.10316v1/mailto:[email protected])

(2018)

###### 摘要

电子表格和表格是结构化数据分析中广泛使用的表示形式,但有效的分析仍然需要大量的人工操作和领域专业知识。最近的大语言模型(LLM)智能体可以自动化部分过程,但它们通常对中间决策的透明度有限,依赖隐含假设,难以处理多表比较,并且重复类似的流程而不适应用户的偏好。本文提出TabClaw,一个用于电子表格操作和表格推理的开源交互式AI智能体。用户可以上传CSV或Excel文件并用自然语言提出请求;TabClaw会澄清模糊意图,展示可编辑的执行计划,流式传输ReAct风格的工具使用分析循环,调度专门智能体进行并行多表推理,并合分析结果并明确标注共识和不确定性。除了单次分析,TabClaw还会记录已完成的工作流,提取持久的用户记忆,从重复的工具使用模式中提炼可复用的技能,支持包式技能导入,并根据负面反馈升级技能。在电子表格操作和表格推理基准测试上的实验表明,TabClaw在保持可检查用户工作流程的同时,提高了可执行任务的完成度和推理性能。本文展示了TabClaw如何将电子表格和表格转化为可检查的分析工作流,同时逐步自我个性化以适应重复出现的数据分析任务。我们的代码已公开。¹¹¹https://github.com/ustc-table-mining/TabClaw

电子表格操作,表格推理,数据分析,LLM智能体,人机交互,自进化智能体

††版权:acmlicensed  
††期刊年份:2018  
††doi:XXXXXXX.XXXXXXX  
††isbn:978-1-4503-XXXX-X/2018/06

## 1. 引言

电子表格和表格是结构化数据分析中广泛使用的表示形式。分析师、研究人员和领域专家经常对CSV文件、电子表格和导出的数据库表提出问题,但要回答这些问题仍然需要一连串机械操作:检查模式、选择列、清洗缺失值、过滤行、聚合指标、关联相关文件、创建数据透视表以及总结结果。对于有经验的用户来说,这些操作单独来看很简单,但当用户必须反复将探索性意图转化为电子表格公式、SQL查询或临时脚本时,成本就会变得很高。这种摩擦在对话式场景中尤为明显:用户可能从一个模糊的问题开始,比如“哪些产品表现最好?”,在看到中间结果后调整目标指标,然后对另一张表进行后续比较。

最近的大语言模型(LLM)在表格理解和表格推理方面取得了进展(Lu et al.,2025; Cheng et al.,2025),使得用自然语言表达分析任务成为可能。先前的工作探索了表格特定的预训练(Herzig et al.,2020; Wang et al.,2021; Liu et al.,2021)、提示和分解方法(Jin and Lu,2023; Wang et al.,2024b; Ye et al.,2023),以及用于电子表格或表格操作的LLM系统(Zhang et al.,2024; Zha et al.,2023; Jiang et al.,2025)。这些方法取得了显著进展,但许多方法仍将表格分析视为一次性推理问题:模型接收一张表和一个问题,然后返回答案或生成的程序。然而,在实际的数据工作中,正确性不仅取决于最终答案,还取决于系统是否支持用户干预以及是否能在重复的工作流中保留有用经验(Cheng et al.,2026; Zhang et al.,2026; Wang et al.,2025)。

这一差距催生了对更具交互性的表格分析智能体的需求(Schick et al.,2023; Wang et al.,2024a; Shinn et al.,2023)。一个有用的智能体应该在行动前澄清模糊意图,展示可编辑的计划,流式传输中间操作以便用户检查和纠正过程,并支持多表分析。它还应该随着时间的推移适应用户:重复出现的报告模式、领域特定的偏好以及负面反馈应该成为可复用的系统知识,而不是在单次会话后消失。这些要求将表格推理与关于工具增强型智能体、规划、记忆和自我改进的更广泛研究联系起来(Huang et al.,2024; Packer et al.,2023)。

在本文中,我们提出TabClaw,一个用于交互式电子表格操作和表格推理的开源Web系统。²²²演示视频:https://github.com/fishsure/TabClaw/blob/main/asset/TabClaw.mp4。TabClaw将LLM驱动的ReAct循环(Yao et al.,2023; Wang et al.,2026)与基于pandas实现的精选表格技能注册表相结合。用户可以上传一个或多个CSV/Excel文件,以自然语言提问,在执行前检查可编辑的计划,并实时观察智能体流式传输推理、工具调用、中间结果表和最终结论。该系统设计为通过FastAPI后端和基于浏览器的界面进行本地部署,易于演示、扩展和审计。

TabClaw旨在使表格分析在执行过程中可控,并在会话间可复用。当请求有多个合理解释时,系统会提出澄清问题,并允许用户在任何数据操作执行之前修改计划。对于多个上传表的比较分析,TabClaw为每个表分配一个限定的专门智能体,然后合分析结果并明确标注共识和不确定性。系统还会维护关于用户偏好、领域事实和重复分析模式的持久记忆,并仅检索相关记忆用于未来交互。已完成的工作流也会被记录,以便将重复的工具使用序列提炼为可复用的技能,并在用户提供负面反馈时进行改进。

见图说明。图 1. TabClaw 工作流程概览。该系统将用户问题和上传的表格转化为经过澄清、规划、工具落地和自我验证的分析,由个性化记忆、表格工具箱和工作流驱动的技能进化提供支持。

## 2. 系统概述

图1总结了TabClaw的主要工作流程。交互从用户问题和上传的一个或多个表格开始。TabClaw首先澄清用户的分析意图,然后将请求转为可编辑的计划,以工具落地的推理执行计划,验证结果是否得到充分支持,最后返回答案和反馈界面。这种设计使得分析过程在执行前、执行中和执行后都可见,以便用户在请求不明确时进行干预,检查中间证据,并提供可以改进未来行为的反馈。

工作流得到三个持久组件的支持。个性化记忆存储用户偏好、领域事实和重复的分析模式,并在未来请求中检索相关条目。表格工具箱提供结构化操作,如读取、过滤、聚合、排序、采样、选择以及沙盒代码执行。自进化模块记录已完成的工作流,挖掘重复模式,提炼可复用技能,并根据用户反馈升级技能。在实现上,前端是一个用于文件上传、聊天、计划编辑、实时事件渲染、结果表检查、记忆管理和技能管理的单页Web界面,而后端FastAPI则暴露HTTP和服务器发送事件(SSE)端点,用于相应的智能体工作流。

### 2.1. 意图澄清与规划

在任何数据操作执行之前,TabClaw会检查用户的请求是否存在多个合理的解释。澄清模块会结合自然语言问题和上传表格的模式,并且仅在不同的解释会导致意义不同的分析时,才提出一个简短的后续问题。意图解决后,TabClaw会生成一个包含具体分析步骤的可编辑计划,符合近期的先计划后执行和交互式规划范式(Mao et al.,2024; Erdogan et al.,2025; Wang et al.,2023)。用户可以在执行前检查、重新排序、删除或重写步骤。这一阶段非常重要,因为电子表格任务通常需要对列、过滤器、分组键和比较基线做出假设;暴露计划可以让用户在它们影响数据之前纠正这些假设。

### 2.2. ReAct 执行与自我验证

在执行过程中,TabClaw遵循ReAct风格的循环,其中模型交替进行对当前任务状态的推理和调用表格工具。每个工具调用产生一个观察结果,如过滤后的表、聚合结果或相关行的预览,并且下一个推理步骤基于这些观察结果。循环通过SSE流式传输到浏览器,允许用户检查思考序列、工具调用和中间结果表,而不仅仅是接收不透明的最终答案。当请求涉及多个上传表时,TabClaw可以为不同的表分配限定的专门智能体,然后合分析结果。每个专门智能体只接收与其子任务相关的表和模式,这减少了跨表污染,并使中间结论更容易归因。最终的合成会区分高置信度的一致意见和跨表的冲突或注意事项。计划步骤完成后,TabClaw在返回最终答案前运行自我验证阶段。验证器检查原始目标是否已覆盖,结论是否基于观察到的证据,以及计划步骤是否已完成。如果检查发现差距,系统可以发出额外的工具调用并修改答案;否则,它进入最终响应并收集用户反馈。

### 2.3. 持久支持模块

图1的下半部分显示了跨会话支持工作流的模块。个性化记忆存储稳定的偏好、领域事实和重复的分析模式,并在处理新请求时检索相关记忆。这使得TabClaw可以复用用户特定的上下文,而不需要用户在每个会话中重复相同的假设。表格工具箱提供ReAct执行器使用的操作。TabClaw当前包含16个内置的pandas技能,包括表格检查、过滤、列选择、聚合、排序、合并、数据透视、计算列创建、描述性统计、值搜索、去重、重命名、采样、值计数、相关矩阵和头行预览。对于高级用例,用户可以启用代码工具,该工具在AST检查和超时管控后运行沙盒化的pandas和numpy代码。自进化模块将已完成的工作流与未来的能力提升连接起来。TabClaw记录工具调用序列、中间结果、最终结论和用户对重要分析的反馈。重复出现的成功模式可以提炼为可复用的技能,而负面反馈则为修改反复失败的技能提供证据。下一节将更详细地描述这些个性化和进化机制。

见图说明。图 2. TabClaw 浏览器界面,包含聊天、流式推理、表格操作和结果检查。

## 3. 自进化与个性化

表 1. 表格和电子表格基准测试的性能比较。TabClaw将每个完成的重要分析视为一个工作流,存储用户请求、涉及的表格、可选计划、有序的工具步骤、中间摘要、最终结论、反馈以及使用的技能。这些记录使得系统可以跨会话复用经验,而不是将每个分析视为孤立的。当一个完成的任务包含足够丰富的工具序列时,TabClaw可以评估该序列是否捕获了可复用的模式,例如参数化的报告、top-k分析、KPI摘要或多步连接,并将其提炼为可复用的技能。

相似文章

SkillClaw:让技能通过智能体进化器集体进化

Papers with Code Trending

SkillClaw 提出了一个框架,用于多用户 LLM 智能体系统中的集体技能进化,通过聚合交互和反馈,实现自主更新和跨用户知识转移,以提升整个生态系统的性能。