超越LLM:为何可扩展的企业AI落地依赖于Agent逻辑
摘要
IBM Research探索了Agent逻辑——诸如知识图谱和程序分析等软件原语——如何引导基于LLM的Agent高效处理复杂的企业工作流,减少幻觉和成本,同时改善结果。
查看缓存全文
缓存时间: 2026/06/01 18:57
超越大语言模型:为何可扩展的企业AI应用依赖于智能体逻辑
来源:https://huggingface.co/blog/ibm-research/agent-logic-and-scalable-ai-adoption 返回文章列表 (https://huggingface.co/blog)
Fuller的头像 (https://huggingface.co/nfuller)
指南在人类历史中一直发挥着重要作用。史前文明就懂得利用太阳和月亮在陆地和海洋上导航远距离。随着时间的推移,各种旅程催生了地图的制作,以便更好地规划路线,并缩短前往重复目的地的旅行时间。几个世纪后,指南针的引入使航海者能够更精确地探索未知目的地。而今天,GPS导航应用指引着我们每一次出行。在当今的智能体AI世界中,AI智能体无疑有潜力实现可扩展的AI应用,从而彻底改变我们所知的各个行业。然而,要释放这一潜力,我们需要一个智能的指南——即智能体逻辑——以提升智能体质量、成本效益,并最终赢得终端用户的信任。
企业工作流与用例
众多研究指出AI试点项目失败率极高,同时也有研究强调AI需要在企业工作流的核心运行才能实现可扩展的应用。[1] [2] 为了更好地理解这一现象及其相关论断,我们需要对企业工作流进行一些分析。这些工作流的特点是:
A. 动态且长期运行 B. 拥有大量API、数据库和服务 C. 通常受到业务策略和/或法规的约束
为了让智能体在上述特性下有效运行,自然需要扩展的模型上下文,而顶尖的前沿LLM当然具备这一能力,但代价是什么?是更高的幻觉率和令牌消耗吗?此外,是否可以为LLM配备一个智能指南(GPS),使其能够在工作流核心执行智能体AI,从而获得更理想的结果?我们通过针对IBM产品设计和构建配备相应智能体逻辑的智能体来验证这些假设,并充分考虑了上述特性。这些产品涉及领域专家面临的一些最具挑战性的任务,这些专家负责关键任务负载的企业软件交付生命周期的各个阶段,包括:
- 理解用遗留代码(Cobol / PL/1)编写的应用程序
- 加快开发人员的测试生成
- 主动响应事件并实现左移应用韧性
- 自动化关键环境的合规改造
在详细审视每个领域之前,我们先定义一下智能体逻辑的特征。智能体逻辑是软件原语,例如知识图谱、算法、程序分析库,它们在智能体层(智能体框架内)运作,能够有意识地将LLM引导至企业工作流的方向,从而缩减上下文空间。这样,它们往往能更高效地实现更优的结果。接下来,我们分析智能体逻辑如何在上述四个领域中实现这样的结果。
- 理解用遗留代码(Cobol / PL/1)编写的应用程序 —— 程序分析。[3]
IBM watsonx Code Assistant for Z(WCA4Z)用于通过AI和自动化加速大型机应用开发与现代化,它配备了一个用于应用理解的App Insights智能体——这是在IBM大型机上运行关键任务负载的企业客户的主要关注点之一。该智能体利用跨应用的深度静态分析,并将预索引表示存储在一个包含数百个相互关联、具有复杂语义的表的数据库模式中,使智能体能够检索精确、结构化的已有信息;从而提高答案准确性,减少令牌使用,并最小化与语言模型(本例中为Mistral Medium 250B)的来回交互。当这种方法应用于多个关键任务遗留系统(多达100万行代码和1000个程序)时,其应用理解性能略优,而令牌消耗比基线的前沿纯LLM方法低约30倍。
- 借助Aster加快开发人员的测试生成 —— 程序分析。[4], [5]
Aster是一个IBM专有的程序分析和数据预处理/后处理库,用于基于智能体生成单元测试、集成测试、API测试和变更测试;根据对多个开发者社区的分析,与各种开源工具或开发者编写的测试相比,它获得了更高的开发者评分。基于后者以及相比类似开源工具(集成测试)和零样本LLM及编码智能体(单元测试)更优的行、分支和方法覆盖基准(均在开源应用上测试),我们已在75多个IBM CIO的Java应用(多达560多个类和6.7万行代码)上使用Devstral 24B模型以预生产模式运行Aster。迄今为止的稳态结果显示,行、分支和方法覆盖率提高了20%至45%,并且在这些应用的一个子集上,相比最先进的编码智能体性能更优,同时令牌消耗低数个数量级(高达15倍)。这些结果的原因是:程序分析输出(用于提示并“聚焦”LLM)结合用于增强覆盖率和修复运行时及编译错误的子智能体,能够以显著降低的成本实现更优的结果。
- 主动响应事件并实现左移应用韧性 —— 知识图谱、程序分析库和基于可观测性的编排。[6], [7]
虽然诸如1和2中描述的应用相关用例的LLM上下文“局限于”应用源代码,但对于已部署基础设施上应用的运行时管理,底层IT全栈就发挥作用了。这里我们定义了一个知识图谱(KG),包含实体(微服务、数据库/中间件服务、MELT等)以及领域专家的内嵌(“部落”)知识。利用这样的图谱,并将LLM约束为本地推理以处理非确定性结果,采用基于可观测性的方法来缩减涵盖IT栈和底层应用源代码(如果相关)的上下文空间,用于事件根因分析(及其他用例)。通过这种方法,利用等效的Instana数据模型,我们观察到专有的Instana“I3”(智能事件调查[8])智能体相比使用GPT-5.1的ReAct智能体,在ITBench[9]上的性能提升高达4.0倍。使用Gemini 3 Flash时,ReAct智能体性能提升,仅比I3智能体低17%,但令牌消耗多1.6倍。我们将这种方法扩展到源代码,用于代码分析(利用程序依赖图)和漏洞修复(利用推理扩展)的智能体,也在ITBench上进行了测试,结果表明源代码分析和漏洞修复智能体(Gemini 2.5 Flash)在查找有责微服务(3.0倍)和漏洞修复(1.6倍)方面均优于最先进的编码智能体,同时令牌消耗分别减少了3.7倍和5.9倍。这个多智能体系统已在IBM Think上作为新发布的IBM Concert平台的一部分公布,用于左移IT运维,并且也在IBM CIO内部进行试点。[10]
- 自动化关键环境的IT合规改造 —— 算法与自适应规划及编排。[11]
企业面临着日益复杂且碎片化的合规要求,迫使团队花费大量时间手动创建控制措施、评估和修复计划。缺乏集中化的知识,修复措施也是手工编写,这带来了错误和安全漏洞的风险。由于合规工作复杂且多步骤,它需要跨专业智能体的协调策略驱动自动化,而不是手动劳动或简单的AI提示。我们的多智能体系统通过算法将复杂任务分解为协调的步骤,使用自适应规划、动态分解和工作流排序,并持续反馈以迭代地确定修复措施和扩展评估。相比使用固定规划策略的先前智能体(Claude 4 Sonnet),其性能提升1.3至2.0倍,同样通过ITBench衡量。这种方法将合规转变为持续引导的自我修正过程,显著改善结果,尤其是在复杂场景中,成功率从个位数提高到80%以上(Claude 4 Sonnet)。这个多智能体系统和1.6万多个数字化控制映射已在IBM Think上作为IBM Sovereign Core的一部分公布,与监控、漂移检测集成,提供自动化的证据生成,确保审计证据安全地保留在客户控制范围内。[12]
上述示例说明了智能体逻辑在缩减LLM上下文、引导LLM以高性能和低成本的方式遍历工作流核心方面的作用。此外,我们还采用了类似的方法处理两个案例研究:一个是在医疗保健领域使用可配置通用智能体(CUGA)运行时;另一个是针对IBM全球房地产的物理资产基于条件的维护。
领域案例研究 案例研究1:可配置通用智能体(CUGA)医疗保健基准 —— 算法策略执行。[13]
以下医疗保险客户服务示例简洁地说明了为什么在受监管环境中,智能体系统胜过纯LLM对话模型。CUGA(可配置通用智能体)的策略系统实现了用于智能体治理的策略即代码,该策略在运行时独立于模型提示且无需微调即可执行。我们的实验表明,智能体的策略系统在任务正确性方面缩小了巨大差距,强制执行结构化工作流、安全意图处理、可靠工具使用以及所有模型系列(Claude Opus – 4.5、GPT OSS 120B和GPT – 4.1)上的可控输出格式,准确率提升范围从15%到26%。权限通过最小特权披露、明确的合规规则和人工升级路径来强制执行。智能操作被提出,而权限则由策略和监督机制行使。推理是自主的;决策权受到约束。CUGA也是IBM Think Sovereign Core发布的关键组件。
案例研究2:IBM全球房地产物理资产的基于条件的维护 —— 有向无环图。[14], [15]
企业维护系统收集大量资产数据,但无法有效整合这些数据,导致需要专家手动拼凑碎片化信号并做出决策,缺乏统一、基于证据的洞察。我们最近推出的Maximo Condition Insights[16]智能体能够分析跨数千个资产和地点(传感器、工单、故障模式与事件分析)的大规模资产数据,使用结构化证据和验证循环来可靠地识别问题、优先处理操作,并支持可追溯的一致洞察进行决策。我们已在IBM全球房地产(GRE)内部使用GPT OSS 120B模型试点该智能体,将资产分析时间从15-20分钟缩短至15-30秒(提升97%),并将资产审查覆盖率从约1%提高到约30%,覆盖120多个地点和6000个物理资产。使用AssetOpsBench,Condition Insights智能体减少了57%的无依据声明,降低了35%的冗长度,提高了30%的规则合规性,保持了接近零的矛盾,平均降低了77%的令牌使用量,同时略微提高了诊断特异性。该智能体配备了有向无环图,提供结构工程和运营上下文,以减少朴素提示下的无依据推理,而约束感知提示则显著改善了规则遵循,降低了冗长度和总体令牌消耗,且没有引入不稳定性。
总结与参考文献: 几个世纪以来,我们一直受益于各种指南,它们简化并提升了我们的生活。随着技术的发展,我们使用的指南也在不断进化,使我们能够做得更多,并进一步缩小我们的地球村。随着智能体AI时代的到来,当我们希望通过规模经济进一步推动社会进步时,我们应继续这一趋势,充分利用智能体逻辑来简化模型上下文,并在核心层面智能地遍历企业工作流;只有这样,才能以最优运营成本实现真正的可扩展应用。
[1] The GenAI Divide: STATE OF AI IN BUSINESS 2025, MIT study,https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf
[2] From AI projects to profits: How agentic AI can sustain financial returns, IBM IBV report,https://www.ibm.com/thought-leadership/institute-business-value/en-us/report/agentic-ai-profits
[3] Understand, IBM Watson Code assistant for Z, Feb 27, 2026,https://www.ibm.com/docs/en/watsonx/watsonx-code-assistant-4z/2.x?topic=understand
[4] R. Pan, R. Krishna, R. Pavuluri, et.al, ASTER: Natural and multi-language unit test generation with LLMs - IBM Research, Apr 30, 2025,https://research.ibm.com/blog/aster-llm-unit-testing
[5] R. Pan, R. Pavuluri, R. Huang, et al., SAINT: Service-level Integration Test Generation with Program Analysis and LLM-based Agents, Nov 17, 2025,https://arxiv.org/abs/2511.13305
[6] S. Jha, R. Arora, Bhavya, et al, Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation, Jan 25, 2026,https://arxiv.org/abs/2601.17915
[7] S. Cui, R. Krishna, S. Jha, et al, Agentic Structured Graph Traversal for Root Cause Analysis of Code-related Incidents in Cloud Applications, Dec 26, 2025,https://arxiv.org/html/2512.22113v1
[8] IBM Instana and Intelligent Incident Investigation agent Use agentic AI to resolve incidents faster with IBM Instana Intelligent Incident Investigation
[9] S. Jha, R. Arora, Y. Watanabe, et al, ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks, Feb 7, 2025,https://arxiv.org/abs/2502.05352
[10] IBM Concert platformhttps://www.ibm.com/new/announcements/from-insight-to-action-closing-the-gap-in-modern-it-operations
[11] Y. Watanabe, T. Yanagawa, H. Kitahara, A. Sailer, IT Compliance Automation with GenAI CISO Assessment Agent , DZone Tutorial, Dec. 12, 2025https://dzone.com/articles/itbench-part-3-it-compliance-automation-with-genai
[12] IBM Sovereign Corehttps://newsroom.ibm.com/2026-05-05-think-2026-ibm-makes-digital-sovereignty-operational-with-general-availability-of-ibm-sovereign-core
[13] S. Shlomov, A. Oved, S. Marreed, et al, From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production, Dec 9, 2025,https://arxiv.org/pdf/2510.23856
[14] D. Patel, S. Lin, J. Rayfield, et al, AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance, Jun 4, 2025,https://arxiv.org/abs/2506.03828
[15] Fearghal O’Donncha, Nianjun Zhou, Natalia Martinez, et al.Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Datahttps://arxiv.org/abs/2603.08171
[16] IBM Maximo and Condition Insights agenthttps://www.ibm.com/new/announcements/maximo-condition-insight
相似文章
@mervenoyann: 每个人都在构建简单智能体,与此同时,IBM正在生产环境中构建强大的企业级智能体,而且是开源的…
IBM在Hugging Face上发布了一篇开源博客,详细介绍了如何构建具有结构化推理和工具使用的强大企业级智能体,超越了基本的LLM和智能体。
我为一家中型律所构建了一个多智能体 AI 系统——以下是真正有效(和无效)的做法
作者分享了在律所部署基于 Claude 和 LangGraph 的多智能体 AI 系统时的经验教训,重点介绍了基于置信度评分的任务交接机制的成功应用,以及防止幻觉产生所需的人机协作监管的重要性。
LLM智能体系统中技能的规模化定律
本文识别了LLM智能体系统中技能库的两个耦合规模化定律:路由准确率随库大小呈对数衰减,执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证,且定律指导的优化显著提升了性能。
有人能帮我理解AI Agent的用例或让我信服吗?
一位软件开发者质疑AI Agent的实际价值,表达了对控制权、问责制的担忧,并怀疑手动自动化结合LLM是否比委托给自主代理更可靠。
停止构建AI智能体。
作者认为,大多数要求构建AI智能体的创始人实际上只需要简单的自动化流程,并辅以最少的LLM集成,理由包括生产环境故障、合规障碍,以及更简单工作流带来的更高投资回报率。文章提供了一个实用的决策框架,帮助开发者和创始人优先考虑可靠的自动化,而非复杂且不可预测的智能体。