电子表格中下一步操作预测的基准与框架

Hugging Face Daily Papers 论文

摘要

本文介绍了一个预测电子表格用户操作的基准,通过人工整理和在线评估方法,解决了编辑历史可用性和复杂操作空间方面的挑战。

预测性代码补全极大地加快了开发人员的工作速度。在电子表格中,尽管这种情况更为普遍,但此类自动补全功能几乎不存在。为弥补这一差距,我们引入了一个基准,用于评估那些观察电子表格中用户操作序列并预测未来操作的系统。两个挑战是:(1) 公共电子表格语料库缺少编辑历史;(2) 电子表格操作的复杂空间(空间、时间、复合)。为解决(1),我们手动整理了52个序列(共12K个操作),通过参数化启发式和LLM优化,从公共语料库中重建了电子表格。为解决(2),我们提出了一种在线评估方法:每次用户操作后期望一个预测,接受或拒绝该预测,接受后更新未来操作,并重复此过程直至获得目标电子表格。我们使用了多种基线预测器(包括零样本LLM、微调SLM和经典模型),并分析了基准揭示的不同特性,包括但不限于:保存操作和误报的特性、效率、用户配置文件的影响、触发器的影响以及上下文的影响。
查看原文
查看缓存全文

缓存时间: 2026/06/18 15:58

论文页 - 评估电子表格中下一步动作预测的基准与框架

来源:https://huggingface.co/papers/2606.13802

摘要

本文提出了一个用于预测电子表格用户操作的基准,通过人工筛选和在线评估方法论,解决了编辑历史不可用和操作空间复杂等挑战。

预测性代码补全极大地加速了开发者的工作效率。尽管电子表格更为普遍,但此类自动补全功能几乎不存在。为填补这一空白,我们引入了一个基准,用于观测电子表格中用户操作序列并预测后续操作的系统。两大挑战在于:(1) 公开电子表格语料库中缺少编辑历史记录;(2) 电子表格操作空间复杂(包含空间、时间、组合操作)。针对(1),我们手动整理了52个序列,共计12K个操作,这些操作通过参数化启发式和大语言模型(LLM)精炼从公开语料库中重建电子表格。针对(2),我们提出了一种在线评估方法:每次用户操作后期望得到一个预测,接受或拒绝该预测,若接受则更新后续操作,重复此过程直至目标电子表格生成。我们使用了多种基线预测器(包括零样本大语言模型Zero-shot LLMs、微调小型语言模型Fine-tuned SLMs以及经典模型),并分析了本基准揭示的不同特性,包括但不限于:已保存操作的特性与误报、效率、用户画像影响、触发机制影响以及上下文影响。

查看arXiv页面 (https://arxiv.org/abs/2606.13802)查看PDF (https://arxiv.org/pdf/2606.13802)项目页面 (https://napeval.github.io/)GitHub0 (https://github.com/Tej-55/NAPE)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13802)

在你的智能体中获取此论文:

hf papers read 2606\.13802

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

未找到关联此论文的模型

在模型README.md中引用 arxiv.org/abs/2606.13802 即可从此页面建立链接。

引用此论文的数据集0

未找到关联此论文的数据集

在数据集README.md中引用 arxiv.org/abs/2606.13802 即可从此页面建立链接。

引用此论文的Space0

未找到关联此论文的Space

在Space README.md中引用 arxiv.org/abs/2606.13802 即可从此页面建立链接。

包含此论文的收藏集0

未找到包含此论文的收藏集

将本论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

相似文章

PreAct-Bench: 对LLM进行预测性监控的基准测试

arXiv cs.LG

PreAct-Bench是一个包含五个领域、1000对道德与不道德行动轨迹的基准测试,旨在评估LLM从部分轨迹中预测有害结果的能力(预测性监控)。结果表明,虽然人类表现良好,但当前的LLM仍存在困难,凸显了未来导向的风险推理的必要性。

从启发式到分析:在线学习中的努力与进度预测

arXiv cs.LG

本文针对智能导学系统引入了参与度预测,利用425名中学生的交互日志,预测每周练习分钟数和掌握的新技能数量。基于特征的模型相比启发式基线将误差降低了22-33%,为导学-学习者目标设定提供了可解释的模式。

ForecastBench-Sim:模拟世界预测基准

arXiv cs.AI

介绍 ForecastBench-Sim,这是一个基于 Freeciv 游戏回放构建的模拟世界预测基准,旨在为评估 AI 系统的概率推理提供可控且可立即解析的任务。