OR-Space：面向工业优化代理的全生命周期工作台基准

Hugging Face Daily Papers 2026/05/27 00:00 论文

operations-research benchmark llm-agents industrial-optimization workspace lifecycle

摘要

OR-Space是一个基准测试，用于评估大语言模型代理在工业运筹工作流中的表现，重点关注多阶段任务生命周期和超越简单文本生成的持久工作空间。

大语言模型（LLM）代理越来越多地被用于辅助运筹学（OR）建模，然而现有的面向运筹学的基准测试通常将评估简化为从独立的问题陈述到数学公式或求解器程序的一次性翻译。这种设置忽略了实际工业运筹工作流的两个特点：持久的多个工件工作空间和多阶段任务生命周期。我们提出了OR-Space，一个面向工业优化代理评估的全生命周期工作台基准，涵盖模型构建、模型修订和基于证据的解释。每个实例都是一个可执行的工作空间，包含业务文档、结构化数据、可选的代码工件、求解器输出以及分布在相互依赖文件中的特定任务评估器。OR-Space定义了三种任务模式：Build（构建），代理从异构工件中构建可求解的优化模型；Revise（修订），代理在变化的需求或求解器反馈下修改现有模型，同时保留有效的先前逻辑；以及Explain（解释），代理根据分布在工作空间工件中的证据回答关于解决方案、约束和业务影响的有依据的问题。通过结合持久工作空间和生命周期导向的任务，OR-Space评估代理是否能够执行超越端到端文本生成的可靠优化工作。我们描述了基准设计、评估协议和质量控制流程，并将OR-Space定位为研究LLM代理在工业运筹工作流中的可靠性、故障模式和实际准备度的基准。

查看原文

查看缓存全文

缓存时间: 2026/05/29 03:00

论文页面 - OR-Space：面向工业优化智能体的全生命周期工作空间基准

来源：https://huggingface.co/papers/2605.28158

摘要

OR-Space 是一个综合性基准，用于评估大语言模型智能体在工业运筹学工作流中的表现，重点考察其处理持久工作空间及多阶段任务生命周期的能力，超越简单的文本生成。

大语言模型（LLM）智能体越来越多地被用于辅助运筹学（https://huggingface.co/papers?q=operations%20research）（OR）建模，然而现有面向 OR 的基准通常将评估简化为从自包含的问题陈述到数学公式或求解器程序的“一次性翻译”。这种设置忽略了实际工业 OR 工作流中的两个特征：持久的多元件工作空间以及多阶段任务生命周期（https://huggingface.co/papers?q=multi-stage%20task%20lifecycles）。我们提出 OR-Space，一个全生命周期工作空间基准，用于评估工业优化智能体在模型构建（https://huggingface.co/papers?q=model%20construction）、模型修订（https://huggingface.co/papers?q=model%20revision）以及基于证据的解释（https://huggingface.co/papers?q=grounded%20explanation）上的表现。每个实例都是一个可执行的工作空间，包含业务文档、结构化数据、可选代码工件、求解器输出以及分布在相互依赖文件中的任务特定评估器。OR-Space 定义了三种任务模式（https://huggingface.co/papers?q=task%20modes）：构建（https://huggingface.co/papers?q=Build），智能体从异构工件中构建求解器就绪的优化模型（https://huggingface.co/papers?q=optimization%20models）；修订（https://huggingface.co/papers?q=Revise），智能体在需求变更或求解器反馈下修改现有模型，同时保留有效的先前逻辑；解释（https://huggingface.co/papers?q=Explain），智能体利用工作空间工件中散布的证据，回答关于解决方案、约束以及业务影响的基于证据的问题。通过将持久工作空间（https://huggingface.co/papers?q=persistent%20workspaces）与面向生命周期的任务相结合，OR-Space 评估了智能体是否能在端到端文本生成之外执行可靠的优化工作。我们描述了基准设计、评估协议与质量控制流水线，并将 OR-Space 定位为研究 LLM 智能体在工业 OR 工作流中的可靠性、故障模式与实用准备度的基准。

查看 arXiv 页面（https://arxiv.org/abs/2605.28158）查看 PDF（https://arxiv.org/pdf/2605.28158）GitHub2（https://github.com/0xzhouchenyu/OR-Space）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.28158）

在您的智能体中获取本文：

hf papers read 2605.28158

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

暂无模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2605.28158 以使其显示在此页面。

引用本文的数据集0

暂无数据集关联本文

请在数据集 README.md 中引用 arxiv.org/abs/2605.28158 以使其显示在此页面。

引用本文的空间0

暂无空间关联本文

请在空间 README.md 中引用 arxiv.org/abs/2605.28158 以使其显示在此页面。

包含本文的收藏0

暂无收藏包含本文

请将本文添加到一个收藏（https://huggingface.co/new-collection）中以使其显示在此页面。

OR-Space：面向工业优化代理的全生命周期工作台基准

论文页面 - OR-Space：面向工业优化智能体的全生命周期工作空间基准

摘要

引用本文的模型0

引用本文的数据集0

引用本文的空间0

包含本文的收藏0

相似文章

OSWorld2.0：长周期真实世界任务中计算机使用代理的基准评测

Orc（暂定名）- 可审计且声明式的 AI 工作流

工具增强代理：闭环优化、仿真与建模编排

SABER：在具有状态的项目工作空间中评估LLM编码代理的操作安全性基准

@xdotli: 5个你应该使用稳健环境评估智能体的空间：1) 输出空间：智能体的输入和结果…

提交意见反馈