π-Bench:评估长时间跨度工作流中的主动式个人助手智能体
摘要
π-Bench是一个新的基准测试,包含100个多轮任务,涉及5个特定领域的用户画像,并隐藏了用户意图,旨在评估个人助手智能体在长时间跨度工作流中的主动式协助能力。
查看缓存全文
缓存时间: 2026/05/22 02:24
论文页面 - π-Bench:在长时程工作流中评估主动性个人助理代理
来源:https://huggingface.co/papers/2605.14678 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
在个人代理系统中,主动性辅助需要通过持续的多轮交互来识别隐藏的用户意图,而当前的基准测试未能充分评估这一点。
个人助理代理(https://huggingface.co/papers?q=personal%20assistant%20agents)的兴起,例如 OpenClaw,凸显了大语言模型(https://huggingface.co/papers?q=large%20language%20models)在支持用户日常生活与工作方面日益增长的潜力。这些场景中的核心挑战是主动性辅助(https://huggingface.co/papers?q=proactive%20assistance),因为用户往往从表述不清的请求开始,并留下重要的需求、约束或偏好未加说明。然而,现有的基准测试很少评估代理能否在用户明确说明之前识别并作用于这些隐藏意图,尤其是在用户需求逐渐显现的持续多轮交互(https://huggingface.co/papers?q=multi-turn%20interactions)中。为弥补这一空白,我们引入了 π-Bench,一个用于主动性辅助的基准测试,包含跨 5 个领域特定用户画像(https://huggingface.co/papers?q=domain-specific%20user%20personas)的 100 个多轮任务。通过整合隐藏用户意图(https://huggingface.co/papers?q=user%20intents)、任务间依赖关系以及跨会话连续性,π-Bench 评估了代理在扩展交互中预测和满足用户需求的能力,并联合衡量了长时程轨迹(https://huggingface.co/papers?q=long-horizon%20trajectories)中的主动性(https://huggingface.co/papers?q=proactivity)与任务完成度(https://huggingface.co/papers?q=task%20completion),从而更好地反映真实世界的使用情况。实验表明:(1) 主动性辅助仍然具有挑战性;(2) 任务完成度与主动性之间存在明显区别;(3) 在后续任务中,先前的交互对于主动意图解析具有价值。
查看 arXiv 页面(https://arxiv.org/abs/2605.14678)查看 PDF(https://arxiv.org/pdf/2605.14678)项目页面(https://simplified-reasoning.github.io/Pi-Bench)GitHub7(https://github.com/Simplified-Reasoning/Pi-Bench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.14678)
在你的代理中获取此论文:
hf papers read 2605\.14678
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.14678,即可从本页链接此模型。
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.14678,即可从本页链接此数据集。
引用此论文的Space0
没有Space链接此论文
在Space的 README.md 中引用 arxiv.org/abs/2605.14678,即可从本页链接此Space。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到一个收藏(https://huggingface.co/new-collection)中,即可从本页链接此论文。
相似文章
@seclink: 这款拥有120亿参数的模型采用统一的 Transformer 架构,能够高效处理原始的多模态输入,且仅需 16GB 内存即可运行,完美适配 MacBook Pro 等设备。 它在各项基准测试中表现卓越,例如在 GPQA Diamond 上…
一款120亿参数的多模态模型开源发布,采用统一Transformer架构,仅需16GB内存即可运行,在多项基准测试中表现优异,支持256K上下文窗口和140多种语言。
@Miles_Brundage: 重磅:Clear AVERI Pronunciation Guide Bench 上 SOTA 分数大幅提升,来自我的同事 Carly
Miles Brundage 宣布由同事 Carly 在 Clear AVERI Pronunciation Guide Bench 上实现了最先进(SOTA)分数的提升。
@elonmusk: Grok 在 Cloudflare 上
xAI 与 Cloudflare 合作,通过 Cloudflare AI Gateway 提供 Grok 模型(包括 LLM、音频、图像、视频),直接通过 Cloudflare 计费,无需额外认证。
"它们是由权重构成的"
一段创意对话探讨了大语言模型本质上只是权重矩阵的观点,挑战了关于理解和意识的概念。
我把一部安卓手机改造成了支持Vulkan加速的本地大模型节点(GGUF + LiteLLM + Tailscale)
一部安卓手机被重新用作便携式GGUF推理服务器,支持Vulkan加速,并通过LiteLLM暴露兼容OpenAI的端点,借助Tailscale网格集成到自托管的AI集群中。