面向大型语言模型的智能体环境工程:环境建模、合成、评估与应用综述
摘要
一篇关于面向大型语言模型的智能体环境工程的全面综述,涵盖环境建模、合成、评估与应用,重点聚焦于智能体与环境的协同演化。
查看缓存全文
缓存时间: 2026/06/11 13:40
论文页面 - 面向大型语言模型的智能体环境工程:环境建模、合成、评估与应用综述
来源: https://huggingface.co/papers/2606.12191 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
大型语言模型智能体需要专门的环境进行训练和评估,这些环境可根据其工程生命周期阶段进行分类,并通过包括神经方法和符号方法在内的多种范式进行演进。
环境作为基于大型语言模型 (https://huggingface.co/papers?q=large%20language%20model)(LLM)的智能体在各类场景中的交互式系统,在推动模型能力持续演进方面发挥着关键作用。尽管这一重要性显而易见,但现有研究缺乏系统性的分类与深入分析。本文从环境工程生命周期 (https://huggingface.co/papers?q=environment%20engineering%20lifecycle)的角度,系统梳理了当前关于智能体环境 (https://huggingface.co/papers?q=agentic%20environments)的研究,涵盖其建模、合成、评估与应用。具体而言,本文首先从八个属性和八个领域出发介绍了代表性环境,详细分析了它们的发展路径并突出了其核心能力。其次,针对自动化环境合成,介绍了两种范式,即符号合成 (https://huggingface.co/papers?q=symbolic%20synthesis) 与神经合成 (https://huggingface.co/papers?q=neural%20synthesis)。本文还展示了每种范式下不同的环境评估方法。第三,讨论了从智能体-环境协同进化 (https://huggingface.co/papers?q=agent-environment%20co-evolution)视角出发的相应环境应用。具体而言,本文从四个互补角度描述了动态环境中智能体进化的主要路径:以记忆为中心的经验进化 (https://huggingface.co/papers?q=memory-centric%20experience%20evolution)、以编排为中心的工作流进化 (https://huggingface.co/papers?q=orchestration-centric%20workflow%20evolution)、以轨迹为中心的离线进化 (https://huggingface.co/papers?q=trajectory-centric%20offline%20evolution) 以及以探索为中心的在线进化 (https://huggingface.co/papers?q=exploration-centric%20online%20evolution)。并识别了三种环境进化范式,即神经驱动、难度驱动和规模驱动方法。最后,讨论了几个有前景的未来方向,包括环境即服务 (Environment-as-a-Service)、多智能体环境和神经符号环境 (Neural-Symbolic Environments)。
查看 arXiv 页面 (https://arxiv.org/abs/2606.12191) 查看 PDF (https://arxiv.org/pdf/2606.12191) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12191)
引用本文的模型 0
没有模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.12191 以从本页建立链接。
引用本文的数据集 0
没有数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.12191 以从本页建立链接。
引用本文的 Spaces 0
没有 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.12191 以从本页建立链接。
包含本文的收藏 0
没有包含此论文的收藏
请将这篇论文添加到收藏 (https://huggingface.co/new-collection) 中以从本页建立链接。
相似文章
EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
EnvScaler:通过程序综合为LLM智能体扩展工具交互环境
EnvScaler是一个自动化框架,通过程序综合为LLM智能体扩展工具交互环境,创建了191个多样化环境和7K个场景,以提升智能体在多轮、多工具交互任务上的性能。
比人类更环保?大语言模型中的环境态度
本文开发了一个用于评估31个大语言模型环境态度的基准,发现它们往往表现出进步的环境观和情境敏感性,凸显了在可持续发展应用中可操控性和规范可靠性的问题。
EnvFactory:通过可执行环境合成与鲁棒强化学习扩展工具使用智能体
EnvFactory 自动化创建可执行工具环境和自然的多轮轨迹,用于训练具有智能体强化学习能力的大语言模型,在使用比先前工作更少的环境下,在 BFCLv3 和 MCP-Atlas 等基准测试上取得了优异性能。
超越个体智能:基于LLM的多智能体系统中的协作、故障归因与自我进化综述
本综述论文对基于LLM的多智能体系统进行了统一回顾,聚焦于协作、故障归因和自我进化,通过LIFE框架识别开放挑战,并提出跨阶段的研究议程。