电子表格中下一步操作预测的基准与框架
摘要
本文介绍了一个预测电子表格用户操作的基准,通过人工整理和在线评估方法,解决了编辑历史可用性和复杂操作空间方面的挑战。
查看缓存全文
缓存时间: 2026/06/18 15:58
论文页 - 评估电子表格中下一步动作预测的基准与框架
来源:https://huggingface.co/papers/2606.13802
摘要
本文提出了一个用于预测电子表格用户操作的基准,通过人工筛选和在线评估方法论,解决了编辑历史不可用和操作空间复杂等挑战。
预测性代码补全极大地加速了开发者的工作效率。尽管电子表格更为普遍,但此类自动补全功能几乎不存在。为填补这一空白,我们引入了一个基准,用于观测电子表格中用户操作序列并预测后续操作的系统。两大挑战在于:(1) 公开电子表格语料库中缺少编辑历史记录;(2) 电子表格操作空间复杂(包含空间、时间、组合操作)。针对(1),我们手动整理了52个序列,共计12K个操作,这些操作通过参数化启发式和大语言模型(LLM)精炼从公开语料库中重建电子表格。针对(2),我们提出了一种在线评估方法:每次用户操作后期望得到一个预测,接受或拒绝该预测,若接受则更新后续操作,重复此过程直至目标电子表格生成。我们使用了多种基线预测器(包括零样本大语言模型Zero-shot LLMs、微调小型语言模型Fine-tuned SLMs以及经典模型),并分析了本基准揭示的不同特性,包括但不限于:已保存操作的特性与误报、效率、用户画像影响、触发机制影响以及上下文影响。
查看arXiv页面 (https://arxiv.org/abs/2606.13802)查看PDF (https://arxiv.org/pdf/2606.13802)项目页面 (https://napeval.github.io/)GitHub0 (https://github.com/Tej-55/NAPE)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13802)
在你的智能体中获取此论文:
hf papers read 2606\.13802
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
未找到关联此论文的模型
在模型README.md中引用 arxiv.org/abs/2606.13802 即可从此页面建立链接。
引用此论文的数据集0
未找到关联此论文的数据集
在数据集README.md中引用 arxiv.org/abs/2606.13802 即可从此页面建立链接。
引用此论文的Space0
未找到关联此论文的Space
在Space README.md中引用 arxiv.org/abs/2606.13802 即可从此页面建立链接。
包含此论文的收藏集0
未找到包含此论文的收藏集
将本论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
PreAct-Bench: 对LLM进行预测性监控的基准测试
PreAct-Bench是一个包含五个领域、1000对道德与不道德行动轨迹的基准测试,旨在评估LLM从部分轨迹中预测有害结果的能力(预测性监控)。结果表明,虽然人类表现良好,但当前的LLM仍存在困难,凸显了未来导向的风险推理的必要性。
BehaviorBench:从行为轨迹中建模真实世界用户决策
BehaviorBench 是一个基准测试,用于评估从真实世界行为轨迹中进行个性化决策建模,利用预测市场和链上记录来测试信念预测和交易预测任务。
TabClaw:用于电子表格操作和表格推理的交互式自进化智能体
TabClaw 是一个开源的交互式 AI 智能体,用于电子表格操作和表格推理,利用 LLM 自动化数据分析,支持多表格推理,并通过记忆和技能提取适应个人偏好。
从启发式到分析:在线学习中的努力与进度预测
本文针对智能导学系统引入了参与度预测,利用425名中学生的交互日志,预测每周练习分钟数和掌握的新技能数量。基于特征的模型相比启发式基线将误差降低了22-33%,为导学-学习者目标设定提供了可解释的模式。
ForecastBench-Sim:模拟世界预测基准
介绍 ForecastBench-Sim,这是一个基于 Freeciv 游戏回放构建的模拟世界预测基准,旨在为评估 AI 系统的概率推理提供可控且可立即解析的任务。