Agri-SAGE:基于仿真的多智能体大语言模型用于上下文感知的农业咨询生成

arXiv cs.AI 论文

摘要

本文介绍了Agri-SAGE,这是一个闭环框架,将多智能体大语言模型推理与生物物理模拟(APSIM)相结合,以生成并验证上下文感知的农业建议。在回顾性分析中,该框架优于静态基线,其中Tree-of-Thoughts实现了峰值产量,而Reflexion通过情景记忆降低了计算成本。

arXiv:2607.00454v1 Announce Type: new 摘要:农业咨询系统面临一个根本性矛盾:静态农艺指南提供一致且基于证据的建议,但对季节内变异和动态不确定性视而不见。最近由大语言模型驱动的咨询系统存在另一种风险,即生成农艺上可信但生理上不令人信服的建议。Agri-SAGE是一个闭环框架,旨在通过将基于检索的多智能体大语言模型推理与基于APSIM的生物物理模拟相结合,来生成和验证农艺建议,从而解决上述两个局限性。为了评估该框架,我们在10年回顾性分析中评估了三种推理方法,即Plan-and-Solve、Tree of Thoughts和Reflexion。这三种方法均显著优于静态PoP(Package-of-Practice)基线,其中Tree of Thoughts实现了令人印象深刻的峰值产量。同时,Reflexion通过利用跨季节情景记忆,以显著较低的计算成本实现了可比的农艺效果。
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:40

# Agri-SAGE:基于仿真的多智能体大型语言模型,用于上下文感知的农业咨询生成

来源:https://arxiv.org/html/2607.00454

Vedant Balasubramaniam¹, Geetha Charan¹, Manojkumar Patil¹, Rohit P Suresh¹, V Priyanka¹, Kodur Sai Vinay Sathvik² 和 Y. Narahari¹

¹印度科学研究所,班加罗尔
{vedantb, geethacharan, pmanojkumar, rohitpsuresh, priyankav, narahari}@iisc.ac.in

²BNM 技术研究所,班加罗尔
[email protected]

###### 摘要

农业咨询系统面临一个根本性的矛盾:静态的农艺指南能够提供一致且基于证据的建议,但对季节内的变化性和动态不确定性却视而不见。近期由大型语言模型驱动的咨询系统则存在另一种风险:生成在农艺上看似可信但在生理学上缺乏说服力的建议。Agri-SAGE 是一个闭环框架,旨在通过将基于检索的多智能体 LLM 推理与基于 APSIM 的生物物理仿真相结合,解决上述两个局限性,从而生成并验证农艺咨询建议。为评估该框架,我们通过一项为期10年的回顾性分析,评估了三种推理方法:Plan-and-Solve、Tree of Thoughts 和 Reflexion。这三种方法均显著优于静态的 PoP(实践包)基线,其中 Tree of Thoughts 实现了令人瞩目的峰值产量。同时,Reflexion 通过利用跨季节的 episodic memory,在计算成本显著降低的情况下,取得了可比的农艺成果。

## I. 引言

农业仍是广大发展中国家粮食安全和农村生计的基石。在印度,相当一部分人口依赖农业维持生计和获取收入,农民可获得的农业指导质量对生产力和经济稳定性具有深远影响。传统上,印度的农业咨询通过《实践包》(PoPs) 来提供。这些 PoP 包含了基于大量田间试验和农艺研究得出的农艺指南。这些建议通常包括土地准备方法、施肥计划、灌溉实践和害虫管理策略。尽管有科学依据,但 PoP 本质上是静态的,因为它们是在种植季节开始前按农业气候区发布的,且更新频率较低。因此,它们无法适应季节变化,如天气冲击、害虫爆发或局部土壤异质性。结果,农民收到的建议可能不适合其具体的田间条件。

为部分解决这一局限性,农业咨询系统还提供《季节内咨询》。这些是种植季节期间基于实时环境信号(包括天气预报、温度模式、害虫发生情况和作物物候阶段)生成的动态、时效性强的建议。在印度,农业气象田间单位 (AMFUs) 负责生成此类咨询。然而,这些咨询在很大程度上仍依赖于人工和专家驱动,限制了可扩展性和个性化推荐的能力。

最近 LLM 的进展使农业咨询系统能够综合大量的农艺知识库,并通过自然语言界面与农民互动。虽然这些系统显著改善了可及性和知识传播,但它们仍然存在局限,因为可能会生成看似合理但实际上不正确的建议。

为解决这些局限性,我们引入了 Agri-SAGE,这是一种新颖的框架,将传统的《实践包》重新构想为动态、上下文感知的农艺计划。其核心是采用多智能体 LLM 架构,由专门智能体生成、评估和优化农业建议。通过将农艺知识检索与实时环境输入相结合,该系统能够生成连贯且自适应的全季节管理策略。

在 AI 驱动的农艺建议中,一个核心挑战是确保建议在物理上合理且可安全执行。为此,Agri-SAGE 使用农业产量系统模拟器 (APSIM) [4] 验证所有生成的咨询计划。APSIM 是一个广泛采用的基于过程的作物模拟模型。与仅依赖文本推理的以往农业咨询系统不同,Agri-SAGE 通过 APSIM 仿真将每条建议都建立在作物生理学基础上,确保生成的咨询在生物物理上可行。

**贡献**

- • 我们提出了一种新颖的闭环自主 AI 农学家框架,将 LLM 与 APSIM 生物物理作物模拟器耦合,成功地将生成式语义推理落地。
- • 我们进行了为期10年的严格比较分析,评估了三种高级推理方法:Plan-and-Solve (PS)、Tree of Thoughts (ToT) 和 Reflexion。我们证明所有这些方法都显著优于静态 PoP 基线,其中 Tree of Thoughts 达到了最高产量。
- • 我们观察到,所提出的方法发现了比静态 PoP 显著更优的农艺实践。在 Mandya 地区,当玉米在本地条件下模拟时,优化后的肥料、灌溉分配以及其他操作带来了更好的结果。

## II. 相关工作

### II-A. 基于 LLM 的农业咨询系统

近期的工作探索了通过检索增强生成 (RAG) 和领域自适应将 LLM 应用于自动化农业咨询。Farmer.Chat [9] 展示了利用精选的农艺知识库结合天气 API 进行大规模部署的对话式农业咨询。类似的系统如 ShizishanGPT [16]、AgriGPT [14] 和 AgriRegion [3] 通过知识图谱、区域感知检索和领域特定微调等技术扩展了这一范式。与通用 LLM 相比,这些方法显著改善了事实性依据,并通过结构化检索管道减少了幻觉 [10]。然而,它们仍然从根本上受限于其底层语料库中可用的知识。因此,它们无法推理检索文档中未出现的农艺场景。

多项研究强调了基于语料库的咨询系统在可靠性方面的挑战。对基于 GPT 的害虫管理系统的评估表明,只有在注入显式领域上下文时,性能才会显著提高 [15]。更广泛的分析表明,当 LLM 在其训练分布之外运行时,可能会生成自信但错误的农艺建议 [2]。诸如 AgroAskAI 等多智能体框架试图通过引入专门智能体和审阅模块来批评生成的响应,从而缓解这些问题 [1]。

### II-B. 仿真模型与多智能体系统

基于过程的作物模拟模型为评估管理决策提供了一种互补机制。诸如 APSIM NextGen 引擎之类的系统以日分辨率模拟作物生长、水平衡和养分动态,并广泛用于农艺情景分析。近期研究开始探索语言模型与仿真环境的集成。Wu 等人 [12] 证明了语言模型可以推理 DSSAT 模拟器输出以优化作物管理。MCP-SIM [7] 引入了一种自我纠正的多智能体框架,通过迭代的规划-行动-反思-修改循环,将未充分指定的提示转化为经过验证的仿真,提高了多个任务设置中的收敛效率。

更广泛地说,多智能体 LLM 框架已在复杂推理任务中展现出有效性。Jia 等人 [6] 提出了一个反馈驱动的多智能体框架,结合了增强检索、推理模块和环境动作,在电力系统优化任务中取得了强劲性能。Xia 等人 [13] 提出了用于数字孪生中仿真模型自动参数化的专门 LLM 智能体。类似地,Reflexion [8] 引入了基于 episodic memory 的反馈机制,使语言智能体能够在不更新模型权重的情况下迭代改进解决方案。CodeSim [5] 通过模拟输入-输出执行的内部调试,将这一范式扩展到程序合成。

现有系统要么仅依赖文本推理而无生理学验证,要么优化孤立的决策而不生成完整的季节计划。Agri-SAGE 通过结合基于 LLM 的检索和推理与 APSIM 仿真,解决了这两个差距,确保全季节农艺咨询基于作物生理学而非仅基于文本。

## III. 方法论

图 1 显示了 Agri-SAGE 的架构。它包含三个主要模块:1) 检索智能体,2) 生成智能体,以及 3) 验证与反馈智能体。

图 1:Agri-SAGE 的架构

### III-A. 检索智能体

该框架使用检索智能体将 LLM 输出建立在精选的地区手稿和《实践包》(PoPs) 知识库之上。通过用当地农业大学的 PoP 填充行动上下文,它将建议锚定在农民在该地区能够实际获取和负担的作物投入、肥料类型和操作方法上。为解决农业文本的高维度问题,我们实现了语义感知的层次化分块,并结合了混合稠密-稀疏检索机制。检索智能体动态处理环境输入,例如实时天气预报、土壤剖面、作物物候和太阳辐射,并将其转化为优化的向量搜索查询。这确保了生成智能体在制定咨询输出之前,能够接收到高度相关、上下文特定的农艺文献。

图 2:推理方法:Plan and Solve(左)、Tree of Thought(中)和 Reflexion(右)。

### III-B. 生成智能体

生成智能体是所提出框架的核心决策制定组件。它综合检索智能体检索到的本地化农艺上下文与实时环境状态,以制定详细、可操作的农业咨询。我们将农艺咨询任务形式化为一个迭代优化问题,其中 APSIM 模拟器作为确定性环境,在每次迭代后提供一个观测值。LLM 根据来自 APSIM 的观测值生成优化的行动。我们评估了三种不同的推理方法:Plan-and-Solve (PS)、Tree of Thoughts (ToT) 和 Reflexion,如图 2 所示。

**Plan-and-Solve (PS)** 我们将 PS 提示策略 [11] 适配到一个闭环生物物理框架中。在每次迭代中,智能体接收先前的观测值并按顺序处理:首先生成一个文本批评,诊断先前行动的具体生物物理失败点,然后生成一个修改后的计划,最后执行新的行动。来自 APSIM 模拟器的确定性反馈以及基线产量,引导 LLM 自主自我纠正。通过这种机制,智能体迭代地收敛到优化且改进的农艺行动。

**Tree of Thoughts (ToT)** 遵循 Yao 等人 [17] 的工作,ToT 被实现为一种前瞻性预搜索。在向模拟器执行任何行动之前,智能体生成 k=3 个不同的、互斥的农艺干预路径。内部 LLM 评估显式地针对当前天气预报批评每条路径的生物物理优缺点。智能体选择得分最高的路径并将其转化为最终行动。只有该咨询被发送给 APSIM 模拟器。通过在执行前强制生成三个分歧分支,ToT 防止了智能体过度优化一个有根本缺陷的初始策略。

**Reflexion** 我们的 Reflexion 实现遵循 Shinn 等人 [8],通过集成一个持久化的 episodic memory 模块来扩展 PS 框架。在此上下文中,episodic memory 被定义为一个文本数据库,存储来自过去模拟年份的提炼启发式规则(例如,记录六月中旬播种日期在干旱年份历史上会失败)。在每个模拟生长季节之后,智能体生成一个反思,诊断该季节的宏观成功或失败,并将其附加到记忆中。在随后的年份中,策略以该历史上下文为条件。通过将生物物理动态缓存到文本记忆库中,Reflexion 实现了跨不同天气周期的零样本推理时自适应。

### III-C. 验证与反馈智能体

在验证与反馈智能体中,一个翻译层将生成智能体的输出转化为结构化的、可执行的针对 APSIM 的工具调用,包括设置播种日期、肥料类型(例如尿素、DAP 等)及其用量和施用日期、灌溉量(毫米)和施用日期,以及更多操作,如地表覆盖(千克/公顷)和耕作事件。然后,APSIM 在规定的咨询指导下模拟完整的作物生命周期。虽然 APSIM 引擎动态计算各种生物物理变量(例如叶面积指数、总地上生物量和碳动态),但反馈智能体隔离并提取三个主要指标以形成反馈:

1.  谷物产量(千克/公顷):作物的最终定量产出,作为优化的主要经济目标函数。
2.  水分胁迫因子:表示水分充足程度的每日生理指标。
3.  氮胁迫因子:表示养分缺乏程度的每日生理指标。

我们选择这三个指标,因为谷物产量是农艺成功的最终基准,而胁迫因子直接对应主要的可操作组件:灌溉调度和肥料施用。通过揭示作物失败或成功的潜在物理驱动因素(例如,由于在强降雨前过早施用导致氮素淋失),LLM 可以迭代地批评和优化其先前的咨询,以最大化产量。

## IV. 数据集与实验设置

### IV-A. 天气、地区与作物选择

- • 地区与气候:我们选择了印度卡纳塔克邦的 Mandya,这是一个半干旱区,以年度间天气变异性大而闻名。在2015年至2024年间,该地区经历了严重的干旱和极端季风,为评估 LLM 智能体如何适应气候胁迫提供了严格的测试环境。
- • 天气数据:2015年至2024年共10年的连续每日天气数据来源于 ERA5 数据集¹。

相似文章

HawkesLLM:智能体文本模拟中的语义不确定性传播

arXiv cs.CL

本文介绍了HawkesLLM,一个通过结合用于时间影响和记忆选择的多变量Hawkes过程与用于文本生成的语言模型,对多步骤智能体文本模拟中的语义不确定性传播进行建模的框架。在GDELT新闻级联案例研究上的评估表明,在紧凑的提示-记忆约束下,后期语义对齐得到了改善。