MCP-Cosmos:基于世界模型增强智能体在 MCP 环境中执行复杂任务

Hugging Face Daily Papers 论文

摘要

本文介绍了 MCP-Cosmos,这是一个将生成式世界模型集成到 Model Context Protocol (MCP) 生态系统中的框架,旨在通过潜在空间中的预测性模拟来增强智能体的规划与执行能力。

Model Context Protocol (MCP) 统一了大型语言模型 (LLMs) 与外部工具之间的接口,然而,智能体如何概念化其运行的环境方面仍存在根本性的差距。当前的范式呈现两极分化:任务级规划往往忽略执行时的动态变化,而反应式执行则缺乏长远的前瞻性。我们提出了 MCP-Cosmos,这是一个将生成式世界模型 (WM) 注入 MCP 生态系统以实现预测性任务自动化的框架。通过统一三种不同的技术,即 MCP、世界模型和智能体,我们证明了“自带世界模型” (BYOWM) 策略允许智能体在执行之前在潜在空间中模拟状态转换并优化计划。我们使用两种策略(ReAct 和 SPIRAL)、2 个规划模型以及 3 个代表性世界模型,在 20 多个 MCP-Bench 任务上进行了实验。我们观察到智能体在环境交互的关键绩效指标 (KPI) 方面有所提升,例如工具成功率和工具参数准确率。该框架还提供了诸如执行质量等新指标,从而与世界模型相比基线方法的有效性产生新的见解。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 04:10

论文页面 - MCP-Cosmos:通过世界模型增强在 MCP 环境中执行复杂任务的智能体

来源:https://huggingface.co/papers/2605.09131

摘要

MCP-Cosmos 将生成式世界模型(World Models)集成到模型上下文协议(Model Context Protocol)生态系统中,通过潜在空间(latent space)中的预测模拟来增强智能体的规划与执行能力。

模型上下文协议(Model Context Protocol)(https://huggingface.co/papers?q=Model%20Context%20Protocol)(MCP)统一了大型语言模型(Large Language Models)(https://huggingface.co/papers?q=Large%20Language%20Models)(LLM)与外部工具之间的接口,然而,智能体如何概念化其操作所处的环境这一根本性差距仍然存在。当前的范式呈现两极分化:任务级规划往往忽略执行时的动态变化,而反应式(reactive)(https://huggingface.co/papers?q=react)执行则缺乏长远的前瞻性。我们提出了 MCP-Cosmos,这是一个将生成式世界模型(World Models)(https://huggingface.co/papers?q=generative%20World%20Models)(WM)注入 MCP 生态系统以实现预测性任务自动化(task automation)(https://huggingface.co/papers?q=task%20automation)的框架。通过统一三项不同的技术,即 MCP、世界模型和智能体,我们证明了“自带世界模型”(Bring Your Own World Model,BYOWM)(https://huggingface.co/papers?q=BYOWM) 策略允许智能体在执行之前在潜在空间(latent space)(https://huggingface.co/papers?q=latent%20space) 中模拟状态转移并完善计划。我们使用两种策略,即 ReAct (https://huggingface.co/papers?q=ReAct) 和 SPIRAL (https://huggingface.co/papers?q=SPIRAL),结合 2 个规划模型和 3 个代表性世界模型,在 20 多个 MCP-Bench 任务上进行了实验。我们观察到智能体与环境交互的关键绩效指标(KPI)有所提升,例如工具成功率(tool success rate)(https://huggingface.co/papers?q=tool%20success%20rate) 和工具参数准确率(tool parameter accuracy)(https://huggingface.co/papers?q=tool%20parameter%20accuracy)。该框架还提供了诸如执行质量(Execution Quality)(https://huggingface.co/papers?q=Execution%20Quality) 等新指标,以生成关于世界模型相较于基线有效性的新见解。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09131) 查看 PDF (https://arxiv.org/pdf/2605.09131) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09131)

在智能体中获取此论文:

hf papers read 2605\.09131

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.09131 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.09131 以从此页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.09131 以从此页面链接它。

包含此论文的集合 1

相似文章

使用 MCP 进行代码执行:构建更高效的智能体

Anthropic Engineering

本文来自 Anthropic,探讨了如何将代码执行与 Model Context Protocol (MCP) 相结合,以提升 AI 智能体的效率。文章分析了工具定义和中间结果导致的 token 过载等挑战,并提出代码执行作为降低延迟和成本的解决方案。

Agent-World:面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua

Cortex 2.0:在现实工业部署中落地世界模型

Hugging Face Daily Papers

Cortex 2.0 提出“先规划再行动”的控制框架,利用视觉隐空间轨迹生成,在复杂工业环境中实现可靠的长时域机器人操作,性能超越反应式 Vision-Language-Action 模型。