FoodCHA：用于细粒度食物分析的多模态大语言模型智能体

arXiv cs.AI 2026/05/08 04:00 论文

摘要

本文介绍了 FoodCHA，这是一个专为细粒度食物分析设计的大语言模型多模态智能体框架，旨在解决饮食监测中的层级一致性和属性识别问题。

arXiv:2605.05499v1 公告类型：新文章摘要：配备摄像头的移动设备和可穿戴设备的广泛使用，使得餐食图像的便捷拍摄成为可能，使食物识别成为实时饮食监测的关键组成部分。然而，现实世界中的食物图像由于类内相似度高，且单张图像中常包含多种食物，带来了挑战。虽然深度学习模型在粗粒度分类中表现强劲，但往往难以捕捉烹饪风格等细粒度属性。此外，现代视觉-语言模型中的开放式生成容易产生非标准标签，限制了其实际应用。我们提出了 FoodCHA，这是一个多模态智能体框架，将食物识别重新表述为一种层级化的决策过程。通过逐步锚定预测，FoodCHA 利用高层类别引导子类别识别，并利用子类别引导烹饪风格识别，从而提升语义一致性和属性级别的识别能力。为确保实际部署可行性，FoodCHA 采用了轻量级的 Moondream-2B 视觉-语言模型，在保持较低计算和内存开销的同时，提供了强大的推理能力。在 FoodNExTDB 数据集上的实验表明，FoodCHA 在类别和子类别识别精度上分别比 Food-Llama-3.2-11B 高出 13.8% 和 38.2%，在烹饪风格分类精度上实现了惊人的 153.2% 提升。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:20

# FoodCHA：用于细粒度食品分析的多模态大语言模型智能体

**来源：** https://arxiv.org/html/2605.05499
**作者：** Woojin Lee, Pranav Mekkoth, Ye Tian, Onat Gungor, Tajana Rosing
**单位：** 加州大学圣地亚哥分校（UCSD）计算机科学与工程系
**邮箱：** \{wol027, pmekkoth, yet002, ogungor, tajana\}@ucsd.edu

###### 摘要

配备摄像头的移动设备和可穿戴设备的广泛普及，使得捕捉餐食图像变得便捷，也使食物识别成为实时饮食监控的关键组成部分。然而，现实世界中的食物图像由于类内相似度高以及单张图像中经常包含多种食物项目，带来了诸多挑战。尽管深度学习模型在粗粒度分类方面表现强劲，但它们往往难以捕捉烹饪风格等细粒度属性。此外，现代视觉-语言模型中的开放式生成可能产生非规范标签，限制了其实际部署。我们提出了 **FoodCHA**，这是一个多模态智能体框架，将食物识别重新表述为一个分层决策过程。通过逐步锚定预测，FoodCHA 利用高层类别引导子类别识别，并利用子类别引导烹饪风格识别，从而提高了语义一致性和属性层面的区分度。为了确保实际的可部署性，FoodCHA 使用了紧凑的 Moondream-2B 视觉-语言模型，该模型在保持较低计算和内存开销的同时提供了强大的推理能力。在 FoodNExTDB 数据集上的实验表明，FoodCHA 在类别和子类别识别精度上分别比 Food-Llama-3.2-11B 高出 13.8% 和 38.2%，并在烹饪风格分类精度上取得了惊人的 153.2% 的提升。

## I 引言

配备摄像头的移动设备和可穿戴设备使得餐食图像捕捉在饮食监控和个性化营养支持方面日益实用 [5](https://arxiv.org/html/2605.05499#bib.bib1), [16](https://arxiv.org/html/2605.05499#bib.bib2)。然而，将现实世界的餐食照片转化为可靠的饮食记录仍然具有挑战性。食物图像在外观、份量、准备方式、光照和背景方面差异很大，而视觉上相似或混合的菜肴可能会模糊语义边界，导致模型关注最显著的项目而不是整餐 [8](https://arxiv.org/html/2605.05499#bib.bib4), [11](https://arxiv.org/html/2605.05499#bib.bib12)。实际的饮食评估不仅仅需要粗略的食物分类。细粒度属性，如子类别和烹饪风格，会影响营养解读；例如，区分家禽与牛肉，或烧烤与烘烤的准备方式，会改变饮食记录的含义。现有的判别式模型，通常基于 CNN 或 Transformer 骨干网络，通常将这些属性作为独立的输出进行处理，且不能保证分层一致性。视觉-语言模型（VLMs）提供了更强的开放式推理能力，但其生成的输出可能包括同义词、过于具体的菜名或数据集分类法之外的标签，这使得评估和部署变得复杂 [14](https://arxiv.org/html/2605.05499#bib.bib15), [13](https://arxiv.org/html/2605.05499#bib.bib13)。

这些挑战凸显了对结构化、符合本体论且跨层级一致预测的需求。

**图 1：FoodCHA 框架概览。**

解决这些限制需要一个明确执行分层依赖关系并验证中间输出的推理框架。智能体编排提供了一个自然的解决方案：通过将感知和推理分解为分阶段的、由工具引导的操作，预测变得结构化、符合本体论且分层一致 [1](https://arxiv.org/html/2605.05499#bib.bib19)。这种方法允许细粒度属性（包括子类别和烹饪风格）有条件地根据前几个阶段进行推断，减少幻觉并实现可靠的多属性饮食日志记录。

我们提出了 **FoodCHA**（图 1），这是一个用于食物属性分阶段预测的分层 VLM 智能体。我们关注 FoodNExTDB 分类法 [14](https://arxiv.org/html/2605.05499#bib.bib15)，该分类法定义了 10 个高层类别、62 个子类别和 9 种烹饪风格。因此，FoodCHA 的目标是在固定的标签空间内进行受本体约束的识别，而不是开放世界的食物发现。FoodCHA 依次预测类别、子类别和烹饪风格，利用数据集层次结构限制候选项，并将自由形式的输出规范化为规范标签。与 Food-Llama-3.2-11B-Vision-Instruct [7](https://arxiv.org/html/2605.05499#bib.bib47), [4](https://arxiv.org/html/2605.05499#bib.bib48) 相比，FoodCHA 将类别和子类别识别精度分别提高了 13.9% 和 38.2%，并将烹饪风格分类精度提高了 153.2%。

综上所述，本工作做出了三项主要贡献：
1.  为饮食追踪制定受本体约束的细粒度食物识别，确保类别、子类别和烹饪风格预测是规范且分层一致的；
2.  引入 FoodCHA，这是一种多模态智能体模型，将识别分解为具有数据集约束候选项以及轻量级验证、恢复和规范化工具的四阶段分层过程；
3.  证明 FoodCHA 显著优于最先进的方法。

## II 相关工作

### II-A 用于食物识别的深度学习模型

食物识别传统上被表述为将图像映射到固定标签集的判别式视觉分类任务。卷积骨干网络如 ResNet 因其强大的归纳偏置和稳定的优化而得到广泛应用，而像 SENet 和 SGLANet 这样的注意力增强变体则提高了对信息区域和微妙食材线索的敏感性 [11](https://arxiv.org/html/2605.05499#bib.bib12)。最近，人们探索了基于 Transformer 的模型和 CNN-Transformer 混合模型，以捕捉长距离依赖关系。NoisyViT 等注重鲁棒性的设计通过引入结构化扰动来减轻现实世界噪声下的过拟合 [9](https://arxiv.org/html/2605.05499#bib.bib16)。与此同时，基于检索的流水线通过将查询图像与标记图库进行匹配并通过重排序优化结果，为细粒度识别提供了替代方案。例如，CVNet 用基于相关性的验证取代了经典的几何验证，以增强实例级检索 [12](https://arxiv.org/html/2605.05499#bib.bib17)。然而，这些方法在面向营养的饮食理解方面仍然有限。判别式模型通常通过独立的头部分别预测类别、子类别和烹饪风格，而不强制分层约束，导致错误在层级间传播，降低了长尾子类别或视觉线索较弱或部分遮挡的属性的性能。基于检索的方法需要维护详尽且最新的参考图库，并且不能自然地产生来自单次推理的结构化多属性预测。这些局限性凸显了利用语义先验、强制分层一致性并产生规范标签的推理需求。

### II-B 用于食物识别的大型语言模型

最近的工作开始利用大型语言模型（LLMs）和视觉-语言模型（VLMs）进行食物理解，要么构建多模态助手，要么训练特定领域的食物模型。FoodLLM 将 LLM 骨干与分割组件耦合，以支持识别、成分理解、营养估计和交互式辅助，通常依赖于在不同数据集上的多阶段训练 [18](https://arxiv.org/html/2605.05499#bib.bib10)。Food-Llama-3.2-11B-Vision-Instruct 是一个适应食物的 VLM 基线，而 Moondream-2B、Qwen2.5-VL-7B 和 InternVL3-8B 代表了具有不同模型大小和推理能力的一般 VLM 基线 [7](https://arxiv.org/html/2605.05499#bib.bib47), [4](https://arxiv.org/html/2605.05499#bib.bib48), [17](https://arxiv.org/html/2605.05499#bib.bib43), [15](https://arxiv.org/html/2605.05499#bib.bib44), [20](https://arxiv.org/html/2605.05499#bib.bib45)。此外，FoodSky 通过在精心策划的食物语料库上进行训练，提高了基于文本的问答中食物和营养知识的深度和可靠性，突出了专门化对饮食推理和指导的好处 [19](https://arxiv.org/html/2605.05499#bib.bib5)。视觉骨干网络的进步，如 ResV-Mamba，进一步表明更强的状态空间架构可以增强精心策划基准上的细粒度食物分类 [6](https://arxiv.org/html/2605.05499#bib.bib18)。

尽管取得了这些进展，但没有任何一种方法直接解决现实世界饮食日志记录的核心挑战：从图像中产生分层属性的结构化、受数据集约束的预测。开放式模型输出可能会偏离规范标签，且类别、子类别和烹饪风格之间的预测必须保持一致。受此差距的启发，我们提出了 FoodCHA，这是一个工具增强的大语言模型智能体，它整合了语义先验和分层约束，将开放式模型响应转化为可控的、与数据集对齐的决策过程。

## III FoodCHA 设计

**图 2：FoodCHA 的系统级流水线。** 输入图像由骨干模型处理，并传递给一个智能体，该智能体在类别、子类别和烹饪风格上执行分层、依赖感知的决策。在每个阶段，候选标签受数据集分类法的约束并进行验证，产生符合本体论的结构化输出。

### III-A 系统概述

**图 2** [3](https://arxiv.org/html/2605.05499#S3.F2) 描述了端到端的 FoodCHA 流水线，该流水线将用户提供的图像转化为结构化的饮食记录。FoodCHA 将识别建模为与数据集分类法对齐的分层决策序列。给定输入图像，我们的智能体框架首先预测高层类别，随后根据先前的决策选择子类别和烹饪风格。在每个阶段，候选标签都受数据集层次结构的约束，确保后续预测在分类法上有效。集成的验证工具，包括结构化解析、成员资格验证和层次检查，强制执行规范格式并保证整个过程中的本体论合规性。最终输出是一个可直接显示并适合结构化存储的决定性 `(类别, 子类别, 烹饪风格)` 三元组。

简而言之，FoodCHA 由三个主要目标指导：
- **可控性：** 将输出限制在预定义的标签集内，并保持可预测的、机器可解析的格式。
- **分层一致性：** 确保子类别和烹饪风格预测在数据集分类法下有效，并与先前的决策一致。
- **鲁棒性：** 通过约束强制执行和恢复机制减少幻觉、标签漂移和格式错误。

这种设计实现了无需增加骨干复杂性的符合本体论的饮食日志记录。通过强制推理期间的分层约束而不是增加额外的模型容量，FoodCHA 防止了无效的标签组合，同时保持了计算效率。

### III-B 用户输入

FoodCHA 接受用户提供的餐食图像作为输入，并在视点、光照和背景变化等自然视觉变化下进行处理。每张图像都映射到一个机器可解析的饮食记录，该记录可以随时间聚合，用于纵向追踪和下游营养分析。

### III-C 框架设置

**图 2** [3](https://arxiv.org/html/2605.05499#S3.F2) 总结了用于处理每个输入图像的框架组件，包括 VLM 骨干、提示方案和编排逻辑。

#### III-C1 VLM 骨干

FoodCHA 使用 VLM 骨干进行图像-文本推理，并兼容任何支持结构化提示的模型。与执行单次闭集预测的基于 CNN 的流水线不同，FoodCHA 执行分阶段推理，其中每个预测都限制下一阶段的候选集。在我们的实验中，我们使用 Moondream-2B 来平衡识别质量和计算成本。虽然 FoodCHA 每张图像需要多次模型调用，但每次调用都在受限的标签空间上进行，并随后进行确定性验证。

#### III-C2 提示设计

FoodCHA 使用特定阶段的提示模板来强制执行结构化、符合本体论的输出。在每个阶段，我们提供由 PriorDB 返回的该阶段候选集，要求严格的仅包含一个字段的 JSON，并禁止任何额外文本。这种设计最大限度地减少了自由形式的漂移，并启用了确定性解析、成员资格检查和层次验证。

FoodCHA 使用特定阶段的提示进行分层推理：

#### III-C3 OpenCHA

FoodCHA 建立在 OpenCHA [2](https://arxiv.org/html/2605.05499#bib.bib20) 之上，这是一个专为多步骤、多模态工作流设计的智能体框架，支持工具使用。OpenCHA 支持条件分支、顺序阶段编排以及上述轻量级实用程序的集成。这确保了推理的每个阶段都产生符合本体论、分层一致且严格结构化的输出。

结合 VLM 骨干、确定性实用程序和 OpenCHA 编排，FoodCHA 能够实现可控、可重复且与专家对齐的分层食物识别预测。

### III-D 分层推理

形成 **图 2** [3](https://arxiv.org/html/2605.05499#S3.F2) 中的中央预测路径，FoodCHA 在整个过程中仅接受用户的图像作为输入，并在三个连续阶段（类别、子类别和烹饪风格）上进行分层推理。每个阶段预测一个从数据集分类法派生的明确定义的候选集中选择的单个标签。通过将下游决策条件化于上游预测并相应地限制候选项，FoodCHA 保证了分类法有效的输出，并缓解了自由形式 VLM 提示的一个常见失败模式，即合理的文本不对应于规范标签。

在我们的分层推理过程中，用户在阶段之间不提供额外输入。因此，推理如下进行：
- **阶段 1 —— 类别。** 模型从预定义的标签集中预测高层食物类别。由于类别线索通常是全局且视觉上显著的，此阶段为后续决策建立了搜索空间。例如，如果用户提供了一张汉堡菜肴的图片，阶段 1 会正确识别它为蛋白质来源，而不是蔬菜或饮料。这一初始阶段对于缩小后续阶段食物标签的候选集至关重要。此步骤中的错误可能会向下游传播，防止在识别过程的后期选择正确的标签。
- **阶段 2 —— 子类别。** 基于预测的类别，FoodCHA 自动从数据集层次结构中检索有效的子类别标签，并将预测限制在此子集中。这防止了漂移到无关或非规范的标签。继续以汉堡为例，一旦菜肴在阶段 1 被分类为“蛋白质来源”，阶段 2 就可以正确识别它为汉堡。

FoodCHA：用于细粒度食物分析的多模态大语言模型智能体

相似文章

FAM-Bench: 面向条件感知的食品即药物推理的多模态基准

CHILLGuard：面向细粒度中文大模型安全护栏的可扩展数据构建与模型感知偏好对齐

用于三维框架系统自动化结构分析的智能体大语言模型

CHAL：分层代理语言委员会

AFMRL：电商中属性增强的细粒度多模态表征学习

提交意见反馈