π-Bench：评估长时间跨度工作流中的主动式个人助手智能体

Hugging Face Daily Papers 2026/05/19 00:00 论文

benchmark proactive-assistance personal-assistant multi-turn evaluation llm

摘要

π-Bench是一个新的基准测试，包含100个多轮任务，涉及5个特定领域的用户画像，并隐藏了用户意图，旨在评估个人助手智能体在长时间跨度工作流中的主动式协助能力。

个人助手智能体（如OpenClaw）的兴起凸显了大语言模型在日常生活和工作中支持用户的潜力。这些场景中的核心挑战在于主动式协助，因为用户通常从表述模糊的请求开始，而将重要的需求、约束或偏好未加说明。然而，现有基准测试很少评估智能体能否在用户明确表述之前识别并处理这些隐藏意图，尤其是在需要逐步呈现用户需求的持续多轮交互中。为弥补这一空白，我们引入了π-Bench，一个包含100个多轮任务、覆盖5个特定领域用户画像的主动式协助基准测试。通过整合隐藏用户意图、任务间依赖关系以及跨会话连续性，π-Bench评估智能体在长时间交互中预测并满足用户需求的能力，从而在更贴近真实应用场景的长时间轨迹中共同衡量主动性和任务完成度。实验表明：（1）主动式协助仍具挑战性；（2）任务完成度与主动性之间存在明显区别；（3）先前交互对于后续任务中主动意图解析的价值。

查看原文

查看缓存全文

缓存时间: 2026/05/22 02:24

论文页面 - π-Bench：在长时程工作流中评估主动性个人助理代理

来源：https://huggingface.co/papers/2605.14678 作者：

摘要

在个人代理系统中，主动性辅助需要通过持续的多轮交互来识别隐藏的用户意图，而当前的基准测试未能充分评估这一点。

个人助理代理（https://huggingface.co/papers?q=personal%20assistant%20agents）的兴起，例如 OpenClaw，凸显了大语言模型（https://huggingface.co/papers?q=large%20language%20models）在支持用户日常生活与工作方面日益增长的潜力。这些场景中的核心挑战是主动性辅助（https://huggingface.co/papers?q=proactive%20assistance），因为用户往往从表述不清的请求开始，并留下重要的需求、约束或偏好未加说明。然而，现有的基准测试很少评估代理能否在用户明确说明之前识别并作用于这些隐藏意图，尤其是在用户需求逐渐显现的持续多轮交互（https://huggingface.co/papers?q=multi-turn%20interactions）中。为弥补这一空白，我们引入了 π-Bench，一个用于主动性辅助的基准测试，包含跨 5 个领域特定用户画像（https://huggingface.co/papers?q=domain-specific%20user%20personas）的 100 个多轮任务。通过整合隐藏用户意图（https://huggingface.co/papers?q=user%20intents）、任务间依赖关系以及跨会话连续性，π-Bench 评估了代理在扩展交互中预测和满足用户需求的能力，并联合衡量了长时程轨迹（https://huggingface.co/papers?q=long-horizon%20trajectories）中的主动性（https://huggingface.co/papers?q=proactivity）与任务完成度（https://huggingface.co/papers?q=task%20completion），从而更好地反映真实世界的使用情况。实验表明：(1) 主动性辅助仍然具有挑战性；(2) 任务完成度与主动性之间存在明显区别；(3) 在后续任务中，先前的交互对于主动意图解析具有价值。

查看 arXiv 页面（https://arxiv.org/abs/2605.14678）查看 PDF（https://arxiv.org/pdf/2605.14678）项目页面（https://simplified-reasoning.github.io/Pi-Bench）GitHub7（https://github.com/Simplified-Reasoning/Pi-Bench）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.14678）

在你的代理中获取此论文：

hf papers read 2605\.14678

没有最新CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.14678，即可从本页链接此模型。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.14678，即可从本页链接此数据集。

引用此论文的Space0

没有Space链接此论文

在Space的 README.md 中引用 arxiv.org/abs/2605.14678，即可从本页链接此Space。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏（https://huggingface.co/new-collection）中，即可从本页链接此论文。

相似文章

@seclink: 这款拥有120亿参数的模型采用统一的 Transformer 架构，能够高效处理原始的多模态输入，且仅需 16GB 内存即可运行，完美适配 MacBook Pro 等设备。它在各项基准测试中表现卓越，例如在 GPQA Diamond 上…

X AI KOLs Following

一款120亿参数的多模态模型开源发布，采用统一Transformer架构，仅需16GB内存即可运行，在多项基准测试中表现优异，支持256K上下文窗口和140多种语言。

π-Bench：评估长时间跨度工作流中的主动式个人助手智能体

论文页面 - π-Bench：在长时程工作流中评估主动性个人助理代理

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

@seclink: 这款拥有120亿参数的模型采用统一的 Transformer 架构，能够高效处理原始的多模态输入，且仅需 16GB 内存即可运行，完美适配 MacBook Pro 等设备。它在各项基准测试中表现卓越，例如在 GPQA Diamond 上…

@Miles_Brundage: 重磅：Clear AVERI Pronunciation Guide Bench 上 SOTA 分数大幅提升，来自我的同事 Carly

@elonmusk: Grok 在 Cloudflare 上

"它们是由权重构成的"

我把一部安卓手机改造成了支持Vulkan加速的本地大模型节点（GGUF + LiteLLM + Tailscale）

提交意见反馈

论文页面 - π-Bench：在长时程工作流中评估主动性个人助理代理

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

@seclink: 这款拥有120亿参数的模型采用统一的 Transformer 架构，能够高效处理原始的多模态输入，且仅需 16GB 内存即可运行，完美适配 MacBook Pro 等设备。 它在各项基准测试中表现卓越，例如在 GPQA Diamond 上…

@Miles_Brundage: 重磅：Clear AVERI Pronunciation Guide Bench 上 SOTA 分数大幅提升，来自我的同事 Carly

@elonmusk: Grok 在 Cloudflare 上

"它们是由权重构成的"

我把一部安卓手机改造成了支持Vulkan加速的本地大模型节点（GGUF + LiteLLM + Tailscale）

提交意见反馈

@seclink: 这款拥有120亿参数的模型采用统一的 Transformer 架构，能够高效处理原始的多模态输入，且仅需 16GB 内存即可运行，完美适配 MacBook Pro 等设备。它在各项基准测试中表现卓越，例如在 GPQA Diamond 上…