OR-Space:面向工业优化代理的全生命周期工作台基准

Hugging Face Daily Papers 论文

摘要

OR-Space是一个基准测试,用于评估大语言模型代理在工业运筹工作流中的表现,重点关注多阶段任务生命周期和超越简单文本生成的持久工作空间。

大语言模型(LLM)代理越来越多地被用于辅助运筹学(OR)建模,然而现有的面向运筹学的基准测试通常将评估简化为从独立的问题陈述到数学公式或求解器程序的一次性翻译。这种设置忽略了实际工业运筹工作流的两个特点:持久的多个工件工作空间和多阶段任务生命周期。我们提出了OR-Space,一个面向工业优化代理评估的全生命周期工作台基准,涵盖模型构建、模型修订和基于证据的解释。每个实例都是一个可执行的工作空间,包含业务文档、结构化数据、可选的代码工件、求解器输出以及分布在相互依赖文件中的特定任务评估器。OR-Space定义了三种任务模式:Build(构建),代理从异构工件中构建可求解的优化模型;Revise(修订),代理在变化的需求或求解器反馈下修改现有模型,同时保留有效的先前逻辑;以及Explain(解释),代理根据分布在工作空间工件中的证据回答关于解决方案、约束和业务影响的有依据的问题。通过结合持久工作空间和生命周期导向的任务,OR-Space评估代理是否能够执行超越端到端文本生成的可靠优化工作。我们描述了基准设计、评估协议和质量控制流程,并将OR-Space定位为研究LLM代理在工业运筹工作流中的可靠性、故障模式和实际准备度的基准。
查看原文
查看缓存全文

缓存时间: 2026/05/29 03:00

论文页面 - OR-Space:面向工业优化智能体的全生命周期工作空间基准

来源:https://huggingface.co/papers/2605.28158

摘要

OR-Space 是一个综合性基准,用于评估大语言模型智能体在工业运筹学工作流中的表现,重点考察其处理持久工作空间及多阶段任务生命周期的能力,超越简单的文本生成。

大语言模型(LLM)智能体越来越多地被用于辅助运筹学(https://huggingface.co/papers?q=operations%20research)(OR)建模,然而现有面向 OR 的基准通常将评估简化为从自包含的问题陈述到数学公式或求解器程序的“一次性翻译”。这种设置忽略了实际工业 OR 工作流中的两个特征:持久的多元件工作空间以及多阶段任务生命周期(https://huggingface.co/papers?q=multi-stage%20task%20lifecycles)。我们提出 OR-Space,一个全生命周期工作空间基准,用于评估工业优化智能体在模型构建(https://huggingface.co/papers?q=model%20construction)、模型修订(https://huggingface.co/papers?q=model%20revision)以及基于证据的解释(https://huggingface.co/papers?q=grounded%20explanation)上的表现。每个实例都是一个可执行的工作空间,包含业务文档、结构化数据、可选代码工件、求解器输出以及分布在相互依赖文件中的任务特定评估器。OR-Space 定义了三种任务模式(https://huggingface.co/papers?q=task%20modes):构建(https://huggingface.co/papers?q=Build),智能体从异构工件中构建求解器就绪的优化模型(https://huggingface.co/papers?q=optimization%20models);修订(https://huggingface.co/papers?q=Revise),智能体在需求变更或求解器反馈下修改现有模型,同时保留有效的先前逻辑;解释(https://huggingface.co/papers?q=Explain),智能体利用工作空间工件中散布的证据,回答关于解决方案、约束以及业务影响的基于证据的问题。通过将持久工作空间(https://huggingface.co/papers?q=persistent%20workspaces)与面向生命周期的任务相结合,OR-Space 评估了智能体是否能在端到端文本生成之外执行可靠的优化工作。我们描述了基准设计、评估协议与质量控制流水线,并将 OR-Space 定位为研究 LLM 智能体在工业 OR 工作流中的可靠性、故障模式与实用准备度的基准。

查看 arXiv 页面(https://arxiv.org/abs/2605.28158)查看 PDF(https://arxiv.org/pdf/2605.28158)GitHub2(https://github.com/0xzhouchenyu/OR-Space)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.28158)

在您的智能体中获取本文:

hf papers read 2605.28158

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

暂无模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2605.28158 以使其显示在此页面。

引用本文的数据集0

暂无数据集关联本文

请在数据集 README.md 中引用 arxiv.org/abs/2605.28158 以使其显示在此页面。

引用本文的空间0

暂无空间关联本文

请在空间 README.md 中引用 arxiv.org/abs/2605.28158 以使其显示在此页面。

包含本文的收藏0

暂无收藏包含本文

请将本文添加到一个收藏(https://huggingface.co/new-collection)中以使其显示在此页面。

相似文章

Orc(暂定名)- 可审计且声明式的 AI 工作流

Reddit r/LocalLLaMA

开发者正在寻求关于"ORC"的反馈,这是一个早期的“编排即代码”工具,使用声明式 DSL 来定义、验证和版本控制 LLM 工作流。旨在服务于结合本地和云端模型的用户,它用可审计的、类似 Terraform 的定义取代了复杂的 Python 脚本,用于代理和工具执行。

工具增强代理:闭环优化、仿真与建模编排

arXiv cs.AI

本文介绍了COSMO-Agent,一个工具增强的强化学习框架,用于训练LLM执行闭环CAD-CAE优化,迭代生成参数化几何体并运行仿真直到满足约束条件,并包含一个多约束奖励和新的行业对齐数据集。

Orchard:一个开源的智能体建模框架

Hugging Face Daily Papers

Orchard是一个用于可扩展智能体建模的开源框架,能够训练多样化的自主智能体,在编程、GUI导航和个人辅助任务上取得了最先进的结果。