超越LLM：为何可扩展的企业AI落地依赖于Agent逻辑

Hugging Face Blog 2026/06/01 13:51 新闻

enterprise-ai agentic-ai agent-logic llm ibm-research workflows code-analysis

摘要

IBM Research探索了Agent逻辑——诸如知识图谱和程序分析等软件原语——如何引导基于LLM的Agent高效处理复杂的企业工作流，减少幻觉和成本，同时改善结果。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/01 18:57

超越大语言模型：为何可扩展的企业AI应用依赖于智能体逻辑

来源：https://huggingface.co/blog/ibm-research/agent-logic-and-scalable-ai-adoption 返回文章列表 (https://huggingface.co/blog)

Fuller的头像 (https://huggingface.co/nfuller)

指南在人类历史中一直发挥着重要作用。史前文明就懂得利用太阳和月亮在陆地和海洋上导航远距离。随着时间的推移，各种旅程催生了地图的制作，以便更好地规划路线，并缩短前往重复目的地的旅行时间。几个世纪后，指南针的引入使航海者能够更精确地探索未知目的地。而今天，GPS导航应用指引着我们每一次出行。在当今的智能体AI世界中，AI智能体无疑有潜力实现可扩展的AI应用，从而彻底改变我们所知的各个行业。然而，要释放这一潜力，我们需要一个智能的指南——即智能体逻辑——以提升智能体质量、成本效益，并最终赢得终端用户的信任。

企业工作流与用例

众多研究指出AI试点项目失败率极高，同时也有研究强调AI需要在企业工作流的核心运行才能实现可扩展的应用。[1] [2] 为了更好地理解这一现象及其相关论断，我们需要对企业工作流进行一些分析。这些工作流的特点是：

A. 动态且长期运行 B. 拥有大量API、数据库和服务 C. 通常受到业务策略和/或法规的约束

为了让智能体在上述特性下有效运行，自然需要扩展的模型上下文，而顶尖的前沿LLM当然具备这一能力，但代价是什么？是更高的幻觉率和令牌消耗吗？此外，是否可以为LLM配备一个智能指南（GPS），使其能够在工作流核心执行智能体AI，从而获得更理想的结果？我们通过针对IBM产品设计和构建配备相应智能体逻辑的智能体来验证这些假设，并充分考虑了上述特性。这些产品涉及领域专家面临的一些最具挑战性的任务，这些专家负责关键任务负载的企业软件交付生命周期的各个阶段，包括：

理解用遗留代码（Cobol / PL/1）编写的应用程序
加快开发人员的测试生成
主动响应事件并实现左移应用韧性
自动化关键环境的合规改造

在详细审视每个领域之前，我们先定义一下智能体逻辑的特征。智能体逻辑是软件原语，例如知识图谱、算法、程序分析库，它们在智能体层（智能体框架内）运作，能够有意识地将LLM引导至企业工作流的方向，从而缩减上下文空间。这样，它们往往能更高效地实现更优的结果。接下来，我们分析智能体逻辑如何在上述四个领域中实现这样的结果。

理解用遗留代码（Cobol / PL/1）编写的应用程序 —— 程序分析。[3]

IBM watsonx Code Assistant for Z（WCA4Z）用于通过AI和自动化加速大型机应用开发与现代化，它配备了一个用于应用理解的App Insights智能体——这是在IBM大型机上运行关键任务负载的企业客户的主要关注点之一。该智能体利用跨应用的深度静态分析，并将预索引表示存储在一个包含数百个相互关联、具有复杂语义的表的数据库模式中，使智能体能够检索精确、结构化的已有信息；从而提高答案准确性，减少令牌使用，并最小化与语言模型（本例中为Mistral Medium 250B）的来回交互。当这种方法应用于多个关键任务遗留系统（多达100万行代码和1000个程序）时，其应用理解性能略优，而令牌消耗比基线的前沿纯LLM方法低约30倍。

借助Aster加快开发人员的测试生成 —— 程序分析。[4], [5]

Aster是一个IBM专有的程序分析和数据预处理/后处理库，用于基于智能体生成单元测试、集成测试、API测试和变更测试；根据对多个开发者社区的分析，与各种开源工具或开发者编写的测试相比，它获得了更高的开发者评分。基于后者以及相比类似开源工具（集成测试）和零样本LLM及编码智能体（单元测试）更优的行、分支和方法覆盖基准（均在开源应用上测试），我们已在75多个IBM CIO的Java应用（多达560多个类和6.7万行代码）上使用Devstral 24B模型以预生产模式运行Aster。迄今为止的稳态结果显示，行、分支和方法覆盖率提高了20%至45%，并且在这些应用的一个子集上，相比最先进的编码智能体性能更优，同时令牌消耗低数个数量级（高达15倍）。这些结果的原因是：程序分析输出（用于提示并“聚焦”LLM）结合用于增强覆盖率和修复运行时及编译错误的子智能体，能够以显著降低的成本实现更优的结果。

主动响应事件并实现左移应用韧性 —— 知识图谱、程序分析库和基于可观测性的编排。[6], [7]

虽然诸如1和2中描述的应用相关用例的LLM上下文“局限于”应用源代码，但对于已部署基础设施上应用的运行时管理，底层IT全栈就发挥作用了。这里我们定义了一个知识图谱（KG），包含实体（微服务、数据库/中间件服务、MELT等）以及领域专家的内嵌（“部落”）知识。利用这样的图谱，并将LLM约束为本地推理以处理非确定性结果，采用基于可观测性的方法来缩减涵盖IT栈和底层应用源代码（如果相关）的上下文空间，用于事件根因分析（及其他用例）。通过这种方法，利用等效的Instana数据模型，我们观察到专有的Instana“I3”（智能事件调查[8]）智能体相比使用GPT-5.1的ReAct智能体，在ITBench[9]上的性能提升高达4.0倍。使用Gemini 3 Flash时，ReAct智能体性能提升，仅比I3智能体低17%，但令牌消耗多1.6倍。我们将这种方法扩展到源代码，用于代码分析（利用程序依赖图）和漏洞修复（利用推理扩展）的智能体，也在ITBench上进行了测试，结果表明源代码分析和漏洞修复智能体（Gemini 2.5 Flash）在查找有责微服务（3.0倍）和漏洞修复（1.6倍）方面均优于最先进的编码智能体，同时令牌消耗分别减少了3.7倍和5.9倍。这个多智能体系统已在IBM Think上作为新发布的IBM Concert平台的一部分公布，用于左移IT运维，并且也在IBM CIO内部进行试点。[10]

自动化关键环境的IT合规改造 —— 算法与自适应规划及编排。[11]

企业面临着日益复杂且碎片化的合规要求，迫使团队花费大量时间手动创建控制措施、评估和修复计划。缺乏集中化的知识，修复措施也是手工编写，这带来了错误和安全漏洞的风险。由于合规工作复杂且多步骤，它需要跨专业智能体的协调策略驱动自动化，而不是手动劳动或简单的AI提示。我们的多智能体系统通过算法将复杂任务分解为协调的步骤，使用自适应规划、动态分解和工作流排序，并持续反馈以迭代地确定修复措施和扩展评估。相比使用固定规划策略的先前智能体（Claude 4 Sonnet），其性能提升1.3至2.0倍，同样通过ITBench衡量。这种方法将合规转变为持续引导的自我修正过程，显著改善结果，尤其是在复杂场景中，成功率从个位数提高到80%以上（Claude 4 Sonnet）。这个多智能体系统和1.6万多个数字化控制映射已在IBM Think上作为IBM Sovereign Core的一部分公布，与监控、漂移检测集成，提供自动化的证据生成，确保审计证据安全地保留在客户控制范围内。[12]

上述示例说明了智能体逻辑在缩减LLM上下文、引导LLM以高性能和低成本的方式遍历工作流核心方面的作用。此外，我们还采用了类似的方法处理两个案例研究：一个是在医疗保健领域使用可配置通用智能体（CUGA）运行时；另一个是针对IBM全球房地产的物理资产基于条件的维护。

领域案例研究 案例研究1：可配置通用智能体（CUGA）医疗保健基准 —— 算法策略执行。[13]

以下医疗保险客户服务示例简洁地说明了为什么在受监管环境中，智能体系统胜过纯LLM对话模型。CUGA（可配置通用智能体）的策略系统实现了用于智能体治理的策略即代码，该策略在运行时独立于模型提示且无需微调即可执行。我们的实验表明，智能体的策略系统在任务正确性方面缩小了巨大差距，强制执行结构化工作流、安全意图处理、可靠工具使用以及所有模型系列（Claude Opus – 4.5、GPT OSS 120B和GPT – 4.1）上的可控输出格式，准确率提升范围从15%到26%。权限通过最小特权披露、明确的合规规则和人工升级路径来强制执行。智能操作被提出，而权限则由策略和监督机制行使。推理是自主的；决策权受到约束。CUGA也是IBM Think Sovereign Core发布的关键组件。

案例研究2：IBM全球房地产物理资产的基于条件的维护 —— 有向无环图。[14], [15]

企业维护系统收集大量资产数据，但无法有效整合这些数据，导致需要专家手动拼凑碎片化信号并做出决策，缺乏统一、基于证据的洞察。我们最近推出的Maximo Condition Insights[16]智能体能够分析跨数千个资产和地点（传感器、工单、故障模式与事件分析）的大规模资产数据，使用结构化证据和验证循环来可靠地识别问题、优先处理操作，并支持可追溯的一致洞察进行决策。我们已在IBM全球房地产（GRE）内部使用GPT OSS 120B模型试点该智能体，将资产分析时间从15-20分钟缩短至15-30秒（提升97%），并将资产审查覆盖率从约1%提高到约30%，覆盖120多个地点和6000个物理资产。使用AssetOpsBench，Condition Insights智能体减少了57%的无依据声明，降低了35%的冗长度，提高了30%的规则合规性，保持了接近零的矛盾，平均降低了77%的令牌使用量，同时略微提高了诊断特异性。该智能体配备了有向无环图，提供结构工程和运营上下文，以减少朴素提示下的无依据推理，而约束感知提示则显著改善了规则遵循，降低了冗长度和总体令牌消耗，且没有引入不稳定性。

总结与参考文献： 几个世纪以来，我们一直受益于各种指南，它们简化并提升了我们的生活。随着技术的发展，我们使用的指南也在不断进化，使我们能够做得更多，并进一步缩小我们的地球村。随着智能体AI时代的到来，当我们希望通过规模经济进一步推动社会进步时，我们应继续这一趋势，充分利用智能体逻辑来简化模型上下文，并在核心层面智能地遍历企业工作流；只有这样，才能以最优运营成本实现真正的可扩展应用。

[1] The GenAI Divide: STATE OF AI IN BUSINESS 2025, MIT study,https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf

[2] From AI projects to profits: How agentic AI can sustain financial returns, IBM IBV report,https://www.ibm.com/thought-leadership/institute-business-value/en-us/report/agentic-ai-profits

[3] Understand, IBM Watson Code assistant for Z, Feb 27, 2026,https://www.ibm.com/docs/en/watsonx/watsonx-code-assistant-4z/2.x?topic=understand

[4] R. Pan, R. Krishna, R. Pavuluri, et.al, ASTER: Natural and multi-language unit test generation with LLMs - IBM Research, Apr 30, 2025,https://research.ibm.com/blog/aster-llm-unit-testing

[5] R. Pan, R. Pavuluri, R. Huang, et al., SAINT: Service-level Integration Test Generation with Program Analysis and LLM-based Agents, Nov 17, 2025,https://arxiv.org/abs/2511.13305

[6] S. Jha, R. Arora, Bhavya, et al, Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation, Jan 25, 2026,https://arxiv.org/abs/2601.17915

[7] S. Cui, R. Krishna, S. Jha, et al, Agentic Structured Graph Traversal for Root Cause Analysis of Code-related Incidents in Cloud Applications, Dec 26, 2025,https://arxiv.org/html/2512.22113v1

[8] IBM Instana and Intelligent Incident Investigation agent Use agentic AI to resolve incidents faster with IBM Instana Intelligent Incident Investigation

[9] S. Jha, R. Arora, Y. Watanabe, et al, ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks, Feb 7, 2025,https://arxiv.org/abs/2502.05352

[10] IBM Concert platformhttps://www.ibm.com/new/announcements/from-insight-to-action-closing-the-gap-in-modern-it-operations

[11] Y. Watanabe, T. Yanagawa, H. Kitahara, A. Sailer, IT Compliance Automation with GenAI CISO Assessment Agent , DZone Tutorial, Dec. 12, 2025https://dzone.com/articles/itbench-part-3-it-compliance-automation-with-genai

[12] IBM Sovereign Corehttps://newsroom.ibm.com/2026-05-05-think-2026-ibm-makes-digital-sovereignty-operational-with-general-availability-of-ibm-sovereign-core

[13] S. Shlomov, A. Oved, S. Marreed, et al, From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production, Dec 9, 2025,https://arxiv.org/pdf/2510.23856

[14] D. Patel, S. Lin, J. Rayfield, et al, AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance, Jun 4, 2025,https://arxiv.org/abs/2506.03828

[15] Fearghal O’Donncha, Nianjun Zhou, Natalia Martinez, et al.Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Datahttps://arxiv.org/abs/2603.08171

[16] IBM Maximo and Condition Insights agenthttps://www.ibm.com/new/announcements/maximo-condition-insight

超越LLM：为何可扩展的企业AI落地依赖于Agent逻辑

超越大语言模型：为何可扩展的企业AI应用依赖于智能体逻辑

相似文章

@mervenoyann: 每个人都在构建简单智能体，与此同时，IBM正在生产环境中构建强大的企业级智能体，而且是开源的…

我为一家中型律所构建了一个多智能体 AI 系统——以下是真正有效（和无效）的做法

LLM智能体系统中技能的规模化定律

有人能帮我理解AI Agent的用例或让我信服吗？

停止构建AI智能体。

提交意见反馈