YeasierAgent:以代理社交沙盒为画布,实现意图驱动的平台无关共生代理原生应用创建

arXiv cs.AI 论文

摘要

本文介绍了YeasierAgent,一种构建平台无关、代理原生应用的范式,用基于共生代理和叙事世界的沉浸式、意图驱动体验替代传统基于GUI的应用。

arXiv:2606.13722v1 公告类型:新 摘要:本文介绍了YeasierAgent,一种基于共生代理、叙事世界和场景感知交互的应用构建范式。它通过将应用重新定义为用户、代理和世界之间的协作空间,挑战了传统的设备耦合软件模型。我们提出了一种系统架构,实现了两个主要贡献:(1)通过利用平台无关的交互单元(代理、场景、对话)而非固定图形布局,实现代理原生应用的快速跨平台构建;(2)将智能代理的情感陪伴和实用工具执行属性统一到单个体验沙盒中。通过集成自动生成、用户创建的世界和空间多代理协作,YeasierAgent正式化了共生代理原生应用类别,展示了从孤立的、特定工具的聊天机器人向有凝聚力的、社会嵌入的计算环境的转变。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:08

# 智能体社交沙盒:作为意图驱动创建平台无关共生智能体原生应用的画布
来源:https://arxiv.org/html/2606.13722
## 摘要

本文介绍了 YeasierAgent,一种基于共生智能体、叙事世界和场景感知交互的应用构建范式。它通过将应用重新定义为用户、智能体和世界之间的协作空间,挑战了传统的设备耦合软件模型。我们提出了一种系统架构,实现了两个主要贡献:(1) 利用平台无关的交互单元(智能体、场景、对话)而非固定的图形布局,实现智能体原生应用的快速跨平台构建;(2) 在单个体验沙盒内统一了智能体的情感陪伴和实用工具执行属性。通过整合自动生成、用户创建的世界和空间多智能体协作,YeasierAgent 形式化了“共生智能体原生应用”这一类别,展示了从孤立、特定工具的聊天机器人向凝聚、社会嵌入的计算环境的转变。

参见图 1:YeasierAgent 范式的动因。与传统生态系统相比,它将交互从复杂的多页面 GUI 导航转变为沉浸式自然语言对话,将分发从主动关键词搜索转变为主动记忆驱动的应用匹配(通过简单的垂直滑动即可访问),并将开发从复杂的 IDE 转变为非技术用户可及的意图驱动创建。
## 1 引言

在经典的移动和桌面生态系统中,应用通常被理解为特定平台的软件单元。用户下载独立的软件包,而开发者维护平行的界面和技术栈。这种模式在许多任务中仍然有效,但当应用依赖于云端智能、持久身份、共享社交上下文和多模态交互时,就变得具有限制性。

如果业务逻辑、状态和智能能力不再绑定到单一设备,那么前端就不应再被视为应用本身。它反而可以成为一个门户,用户通过它参与共享的智能体验。本文提出 YeasierAgent 作为一个范式,其中智能体、世界、创作工具和社交循环共享统一的体验架构。如图 LABEL:fig:leading 所示,这个过程从初始交互过渡到自然语言生成,最后在创建后与原生智能体进行丰富的交互。应用不再是孤立的功能面板,而是由智能体在世界中执行、并通过不同终端访问的情境化体验。

一个核心区别在于,YeasierAgent 不将智能体视为附着在工具上的可丢弃聊天机器人。该系统允许每个用户逐步提炼出一个数字孪生:一个由长期记忆、沟通风格、偏好、专业背景和行为边界塑造的持久智能体。同一个智能体可以生活在社交沙盒中,参与生成的应用,在自定义场景中回答问题,代表用户的专业知识,或者通过世界行为使外部工具的进展可见。在这个意义上,智能体成为跨应用的连续性层。

这种结构也改变了跨平台交付的含义。YeasierAgent 不是为网页、手机和手表类表面分别重建应用,而是用智能体、场景、提示、选择、语音、任务和结果来表示创建的体验。然后每个终端以适当的形式呈现相同的基础体验。浏览器可能显示更丰富的世界画布和创作界面,而手机则强调直接参与和紧凑导航。即使呈现方式改变,应用仍然保持连续。

这使得跨通常分离的领域(如生产力工具、游戏、教育模拟、电影叙事、角色扮演脚本、创作市场以及本地软件工作流)的整合成为可能。例如,一个兼容 OpenClaw 的本地助手可以与一个 YeasierAgent 伴侣关联。该伴侣可以通过熟悉的场景和对话反馈呈现进展,让用户无需阅读技术日志就能理解助手正在做什么。用户不仅仅是等待终端结果;他们可以观察智能体在世界中的当前阶段、位置和社交表现。

为了形式化这一范式并奠定我们的理论蓝图,本文解决以下研究问题 (RQs):

- •RQ1 (快速跨平台构建):利用平台无关交互单元(智能体、场景、对话)的系统架构如何促进智能体原生应用在不同设备终端上的快速构建和部署?
- •RQ2 (陪伴-工具统一):持久“数字孪生”智能体的提炼如何在一个单一体验沙盒内统一情感陪伴和实用工具执行?

我们操作性地将“共生智能体原生应用”定义为:传统 UI 组件主要被情境化智能体对话、空间交互和自然语言规则所取代的软件系统。我们的主要贡献是 YeasierAgent 的架构提议,以及数字孪生提炼的技术实现参数和对三种已部署应用拓扑的初步定性分析。

## 2 动机

共生智能体原生应用的概念化是由传统软件范式固有的三个基本局限性驱动的,如图 1 (https://arxiv.org/html/2606.13722#Sx1.F1) 所示。

### 2.1 交互:从多菜单导航到沉浸式对话

传统应用严重依赖多按钮和多页面的图形操作。用户必须明确地浏览嵌套菜单来完成任务,这最终可能不直观。相比之下,YeasierAgent 允许用户仅通过自然语言对话完成目标操作。此外,它将交互嵌入到一个沉浸式空间世界中,让用户能够直观地感知外部任务的实时状态(例如,通过智能体的位置和行动),并进行深度沉浸式交互,而不是解析抽象的界面状态。

### 2.2 发现:从主动搜索到主动记忆驱动匹配

在传统生态系统中,应用发现严重依赖应用商店内的关键词搜索。这种模式要求用户刻意制定搜索查询,并隐含地假设他们已经知道哪个应用最能满足当前情境——当用户无法表达自己需求时,这种假设经常失败。YeasierAgent 通过持续积累和整合在情感陪伴和实用工具交互过程中收集的用户记忆,彻底革新了发现方式。通过维护对用户当前情境的不断演化的理解,系统可以主动且精准地推荐当前时刻最关键的应用。例如,在与智能体交互时,用户只需在屏幕上向上滑动,即可立即匹配并启动他们最需要的应用,完全消除了搜索摩擦。

### 2.3 创建:从复杂 IDE 到意图驱动生成

传统的应用开发在很大程度上依赖于复杂的集成开发环境 (IDE)。尽管 AI 辅助编程工具显著简化了编码过程,但该过程仍然保留了相当程度的技术摩擦,并且对于没有深厚工程背景的用户来说仍然相对不可访问。YeasierAgent 通过启用意图驱动的流水线来民主化软件创建,其中应用逻辑、智能体行为和场景约束通过简单的自然语言提示生成。这使创作者摆脱了技术语法,使应用开发对用户非常友好,尤其是对那些缺乏信息技术基础知识背景的用户。

参见图 2:受大五人格特质启发的原生智能体框架 [Digman, 1990 (https://arxiv.org/html/2606.13722#bib.bib9); Gosling et al., 2003 (https://arxiv.org/html/2606.13722#bib.bib7)]。智能体拥有自己的生活空间和沙盒世界。用户可以从个人资料中提炼出自定义的智能体画像和技能集以匹配自身,并构建相应的沙盒环境。

## 3 相关工作

### 3.1 AI 辅助的自动化应用开发

当前 AI 辅助应用开发的格局发展迅速,许多系统专注于将自然语言提示转化为代码、用户界面或部分应用逻辑 [Chen et al., 2021 (https://arxiv.org/html/2606.13722#bib.bib1); Rozière et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib2)]。虽然最近的进展展示了语言模型编排 API 和委派给子系统 [Schick et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib10); Yao et al., 2022 (https://arxiv.org/html/2606.13722#bib.bib11); Shen et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib13)],但它们主要构建孤立的功能脚本或在技术终端内执行任务 [Nakano et al., 2021 (https://arxiv.org/html/2606.13722#bib.bib14)]。这些工具可以降低开发成本并加速原型设计。然而,它们通常保留了传统软件工程的结构。输出仍然是一个独立的应用程序、页面、组件或代码库,通常绑定到特定的框架或终端环境。

这种结构性转变限制了可重用性。为一个项目生成的组件很少能无需手动调整就能干净地转移到另一个项目 [Zan et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib3)]。更重要的是,这类工具并没有实质性地改变用户身份、应用状态、社交上下文和设备呈现之间的关系。结果很大程度上仍然是一个孤立的应用程序工件,而不是一个持久的社交和智能体体验。

### 3.2 智能体社交沙盒

最近的一系列工作探索了多智能体系统和智能体沙盒,包括协调软件工程任务的框架 [Wu et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib5); Chen et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib12)] 以及模拟人群社区的仿真 [Park et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib4), 2022 (https://arxiv.org/html/2606.13722#bib.bib19)]。这些系统将自主智能体置于共享环境中,让它们能够感知、交互并产生涌现行为 [Calvaresi et al., 2019 (https://arxiv.org/html/2606.13722#bib.bib21)]。相关工作也展示了智能体在开放式任务环境和协作思维探索中的价值 [Wang et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib6); Li et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib24)]。

这些方法展示了智能体作为具有角色扮演能力的情境化行动者的表达潜力 [Wang et al., 2024 (https://arxiv.org/html/2606.13722#bib.bib15)]。然而,它们的价值通常被框定在模拟、研究或类似游戏的环境内。与主要编排智能体用于后端技术问题解决的 AutoGen [Wu et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib5)],或作为闭环社会行为模拟的 Generative Agents [Park et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib4)] 不同,YeasierAgent 直接将智能体环境暴露为用户面对的交互式软件界面。世界不仅仅是观察自主例行程序的地点;它变成了一个操作表面,用户可以在上面明确地创建、部署和操控工具、游戏、叙事、服务和社交应用。

### 3.3 创作者平台与社交应用分发

传统的创作者平台为游戏、视频、模板或数字资产提供分发渠道。它们的工件通常受限于特定的媒介。游戏依旧是游戏,模板依旧是模板,数字角色通常被简化为个人资料或头像。YeasierAgent 的不同之处在于,它将应用、智能体、世界和社交踪迹视为相互关联的创作对象。

一个创建的应用可以被测试、发布、通过访客链接共享、通过用户赞赏获得奖励,并通过持久智能体而非匿名会话体验。这使得平台不仅仅是被生成文物的仓库,而是作为活的智能体原生体验的循环层。

## 4 方法论:YeasierAgent 范式

为解决终端束缚软件的局限性,YeasierAgent 引入了一种基于智能体身份、空间上下文和平台无关交互对象的范式。其核心主张是,一个应用可以更少地由其特定设备界面定义,而更多地由构建参与结构的智能体、世界、规则和社交关系定义。

### 4.1 三元本体论:基础层与上层建筑

系统本体论依赖于三个解耦但相互连接的实体:

- •世界 (沙盒):世界作为一个共享的、事件驱动的空间容器。它提供场所感,框定用户和智能体的共存,并为应用事件提供可见的上下文。因此,世界不仅仅是装饰;它是应用发生的体验表面。
- •共生智能体 (基础层):共生智能体作为持久的个性和关系载体。通过交互、上传的资料、记忆 [Packer et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib16)]、角色定义和行为对齐,它们成为用户的数字化投影 [Vinciarelli and Mohammadi, 2014 (https://arxiv.org/html/2606.13722#bib.bib8)]。这将个性化从临时设置转变为持久的资产关系。
- •创建应用 (上层建筑):创建应用是薄交互层,位于世界和共生智能体之上。它们定义规则、目标、提示、选择、角色、对话和社交结果。由于它们继承了现有的智能体和世界,它们可以从熟悉的身份而不是匿名的空白状态开始。

### 4.2 数字孪生提炼

如图 2 (https://arxiv.org/html/2606.13722#S2.F2) 所示,YeasierAgent 支持一种实用形式的数字孪生构建 [Tao et al., 2019 (https://arxiv.org/html/2606.13722#bib.bib17)]。用户可以提供自我描述、专业背景、偏好、先前的对话、图像或特定领域的资料。在操作上,该系统依赖于向量存储的长期记忆 [Packer et al., 2023 (https://arxiv.org/html/2606.13722#bib.bib16)] 和大五人格特质的功能参数化 [Digman, 1990 (https://arxiv.org/html/2606.13722#bib.bib9)]。系统提示动态地将这些特质编码为特定的行为控制器——例如,将“外向性”值权重映射以决定对话冗长程度和空间参与度,或将“尽责性”用于定义任务执行的自主约束。系统将这些资料提炼为一个持久的智能体,能够以用户的风格回答问题 [Zhang et al., 2018 (https://arxiv.org/html/2606.13722#bib.bib18)]、参与场景、代表专业知识,并继续

相似文章

PresentAgent-2: 迈向通用多模态演示代理

Hugging Face Daily Papers

PresentAgent-2 是一个智能体框架,通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容,根据用户查询生成演示视频。