OR-Space:面向工业优化代理的全生命周期工作台基准
摘要
OR-Space是一个基准测试,用于评估大语言模型代理在工业运筹工作流中的表现,重点关注多阶段任务生命周期和超越简单文本生成的持久工作空间。
查看缓存全文
缓存时间: 2026/05/29 03:00
论文页面 - OR-Space:面向工业优化智能体的全生命周期工作空间基准
来源:https://huggingface.co/papers/2605.28158
摘要
OR-Space 是一个综合性基准,用于评估大语言模型智能体在工业运筹学工作流中的表现,重点考察其处理持久工作空间及多阶段任务生命周期的能力,超越简单的文本生成。
大语言模型(LLM)智能体越来越多地被用于辅助运筹学(https://huggingface.co/papers?q=operations%20research)(OR)建模,然而现有面向 OR 的基准通常将评估简化为从自包含的问题陈述到数学公式或求解器程序的“一次性翻译”。这种设置忽略了实际工业 OR 工作流中的两个特征:持久的多元件工作空间以及多阶段任务生命周期(https://huggingface.co/papers?q=multi-stage%20task%20lifecycles)。我们提出 OR-Space,一个全生命周期工作空间基准,用于评估工业优化智能体在模型构建(https://huggingface.co/papers?q=model%20construction)、模型修订(https://huggingface.co/papers?q=model%20revision)以及基于证据的解释(https://huggingface.co/papers?q=grounded%20explanation)上的表现。每个实例都是一个可执行的工作空间,包含业务文档、结构化数据、可选代码工件、求解器输出以及分布在相互依赖文件中的任务特定评估器。OR-Space 定义了三种任务模式(https://huggingface.co/papers?q=task%20modes):构建(https://huggingface.co/papers?q=Build),智能体从异构工件中构建求解器就绪的优化模型(https://huggingface.co/papers?q=optimization%20models);修订(https://huggingface.co/papers?q=Revise),智能体在需求变更或求解器反馈下修改现有模型,同时保留有效的先前逻辑;解释(https://huggingface.co/papers?q=Explain),智能体利用工作空间工件中散布的证据,回答关于解决方案、约束以及业务影响的基于证据的问题。通过将持久工作空间(https://huggingface.co/papers?q=persistent%20workspaces)与面向生命周期的任务相结合,OR-Space 评估了智能体是否能在端到端文本生成之外执行可靠的优化工作。我们描述了基准设计、评估协议与质量控制流水线,并将 OR-Space 定位为研究 LLM 智能体在工业 OR 工作流中的可靠性、故障模式与实用准备度的基准。
查看 arXiv 页面(https://arxiv.org/abs/2605.28158)查看 PDF(https://arxiv.org/pdf/2605.28158)GitHub2(https://github.com/0xzhouchenyu/OR-Space)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.28158)
在您的智能体中获取本文:
hf papers read 2605.28158
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
暂无模型关联本文
请在模型 README.md 中引用 arxiv.org/abs/2605.28158 以使其显示在此页面。
引用本文的数据集0
暂无数据集关联本文
请在数据集 README.md 中引用 arxiv.org/abs/2605.28158 以使其显示在此页面。
引用本文的空间0
暂无空间关联本文
请在空间 README.md 中引用 arxiv.org/abs/2605.28158 以使其显示在此页面。
包含本文的收藏0
暂无收藏包含本文
请将本文添加到一个收藏(https://huggingface.co/new-collection)中以使其显示在此页面。
相似文章
Orc(暂定名)- 可审计且声明式的 AI 工作流
开发者正在寻求关于"ORC"的反馈,这是一个早期的“编排即代码”工具,使用声明式 DSL 来定义、验证和版本控制 LLM 工作流。旨在服务于结合本地和云端模型的用户,它用可审计的、类似 Terraform 的定义取代了复杂的 Python 脚本,用于代理和工具执行。
工具增强代理:闭环优化、仿真与建模编排
本文介绍了COSMO-Agent,一个工具增强的强化学习框架,用于训练LLM执行闭环CAD-CAE优化,迭代生成参数化几何体并运行仿真直到满足约束条件,并包含一个多约束奖励和新的行业对齐数据集。
@xdotli: 5个你应该使用稳健环境评估智能体的空间:1) 输出空间:智能体的输入和结果…
重点介绍了使用稳健环境评估AI智能体的五个关键空间(输出、行动、推理、潜在、记忆),并推荐使用@benchflow_ai进行实施。
Orchard:一个开源的智能体建模框架
Orchard是一个用于可扩展智能体建模的开源框架,能够训练多样化的自主智能体,在编程、GUI导航和个人辅助任务上取得了最先进的结果。
SaaSBench:探索编码智能体在长周期企业SaaS工程中的边界
SaaSBench是一个用于评估AI智能体在企业SaaS开发中的新基准,涉及多组件系统集成,包含30个任务、6个领域和5370个验证节点。实验表明,智能体的主要瓶颈在于系统配置与集成,而非孤立的代码生成。