电子表格中下一步操作预测的基准与框架

Hugging Face Daily Papers 2026/06/11 00:00 论文

benchmark spreadsheet next-action-prediction llm fine-tuning evaluation

摘要

本文介绍了一个预测电子表格用户操作的基准，通过人工整理和在线评估方法，解决了编辑历史可用性和复杂操作空间方面的挑战。

预测性代码补全极大地加快了开发人员的工作速度。在电子表格中，尽管这种情况更为普遍，但此类自动补全功能几乎不存在。为弥补这一差距，我们引入了一个基准，用于评估那些观察电子表格中用户操作序列并预测未来操作的系统。两个挑战是：(1) 公共电子表格语料库缺少编辑历史；(2) 电子表格操作的复杂空间（空间、时间、复合）。为解决(1)，我们手动整理了52个序列（共12K个操作），通过参数化启发式和LLM优化，从公共语料库中重建了电子表格。为解决(2)，我们提出了一种在线评估方法：每次用户操作后期望一个预测，接受或拒绝该预测，接受后更新未来操作，并重复此过程直至获得目标电子表格。我们使用了多种基线预测器（包括零样本LLM、微调SLM和经典模型），并分析了基准揭示的不同特性，包括但不限于：保存操作和误报的特性、效率、用户配置文件的影响、触发器的影响以及上下文的影响。

查看原文

查看缓存全文

缓存时间: 2026/06/18 15:58

论文页 - 评估电子表格中下一步动作预测的基准与框架

来源：https://huggingface.co/papers/2606.13802

摘要

本文提出了一个用于预测电子表格用户操作的基准，通过人工筛选和在线评估方法论，解决了编辑历史不可用和操作空间复杂等挑战。

预测性代码补全极大地加速了开发者的工作效率。尽管电子表格更为普遍，但此类自动补全功能几乎不存在。为填补这一空白，我们引入了一个基准，用于观测电子表格中用户操作序列并预测后续操作的系统。两大挑战在于：(1) 公开电子表格语料库中缺少编辑历史记录；(2) 电子表格操作空间复杂（包含空间、时间、组合操作）。针对(1)，我们手动整理了52个序列，共计12K个操作，这些操作通过参数化启发式和大语言模型(LLM)精炼从公开语料库中重建电子表格。针对(2)，我们提出了一种在线评估方法：每次用户操作后期望得到一个预测，接受或拒绝该预测，若接受则更新后续操作，重复此过程直至目标电子表格生成。我们使用了多种基线预测器（包括零样本大语言模型Zero-shot LLMs、微调小型语言模型Fine-tuned SLMs以及经典模型），并分析了本基准揭示的不同特性，包括但不限于：已保存操作的特性与误报、效率、用户画像影响、触发机制影响以及上下文影响。

查看arXiv页面 (https://arxiv.org/abs/2606.13802)查看PDF (https://arxiv.org/pdf/2606.13802)项目页面 (https://napeval.github.io/)GitHub0 (https://github.com/Tej-55/NAPE)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13802)

在你的智能体中获取此论文：

hf papers read 2606\.13802

没有最新CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

未找到关联此论文的模型

在模型README.md中引用 arxiv.org/abs/2606.13802 即可从此页面建立链接。

引用此论文的数据集0

未找到关联此论文的数据集

在数据集README.md中引用 arxiv.org/abs/2606.13802 即可从此页面建立链接。

引用此论文的Space0

未找到关联此论文的Space

在Space README.md中引用 arxiv.org/abs/2606.13802 即可从此页面建立链接。

包含此论文的收藏集0

未找到包含此论文的收藏集

将本论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

电子表格中下一步操作预测的基准与框架

论文页 - 评估电子表格中下一步动作预测的基准与框架

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

PreAct-Bench: 对LLM进行预测性监控的基准测试

BehaviorBench：从行为轨迹中建模真实世界用户决策

TabClaw：用于电子表格操作和表格推理的交互式自进化智能体

从启发式到分析：在线学习中的努力与进度预测

ForecastBench-Sim：模拟世界预测基准

提交意见反馈