FAM-Bench: 面向条件感知的食品即药物推理的多模态基准
摘要
介绍了FAM-Bench,这是一个多模态基准,包含2500个经专家验证的实例,涵盖13种与饮食相关的健康状况,旨在评估AI模型评估菜肴对特定健康状况的适宜性的能力,超越了基本的食物识别,转向条件感知推理。
arXiv:2605.31410v1 公告类型:新
摘要:食品即药物要求模型推理超越菜肴是什么或含有哪些营养:它们必须决定一个具体的食物选择是否适合特定的健康状况。现有的食物AI基准主要评估菜肴识别、食谱理解、营养估算或一般营养问答,而这一健康感知决策层基本未经过测试。我们介绍了FAM-Bench,一个多模态食品即药物基准,包含2500个经营养专家验证的实例,涵盖13种与饮食相关的健康状况。该基准包含两个互补任务:菜肴级别适宜性评估,模型从图像和配料列表中判断一道菜是否适合某种状况;以及比较菜肴分析,模型根据状况特定适宜性对四道候选菜进行排序。这两个任务都需要整合配料证据、视觉制备线索和临床营养约束,为语言和视觉-语言模型中的基于事实的健康感知推理提供了一个标准化测试平台。
查看缓存全文
缓存时间: 2026/06/01 09:27
# FAM-Bench:面向条件感知的“食物即药物”推理的多模态基准 来源:https://arxiv.org/html/2605.31410 Mingyang Mao¹,\*, Bhargav Rishi Medisetti²,\*, Utkarsh Grover¹,\*, Tanvir Ibrahim², Wenyan Li³, Tingting Zhang², Xiaomin Lin¹,† ¹南佛罗里达大学电气工程系 ²南佛罗里达大学Muma商学院 ³哥本哈根大学计算机科学系 \*同等贡献。†通讯作者:[email protected] ###### 摘要 “食物即药物”要求模型不仅能够推理一道菜是什么或含有哪些营养,还必须判断具体的食物选择是否适合特定的健康状况。现有的食物AI基准主要评估菜品识别、食谱理解、营养估算或一般营养问答,而未对这一健康意识的决策层进行充分测试。我们引入了FAM-Bench,一个多模态的“食物即药物”基准,包含2500个经营养专家验证的实例,覆盖13种与饮食相关的健康状况。该基准包含两个互补任务:菜品级适宜性评估(模型根据菜肴图像和配料清单判断一道菜是否适合某种状况)和比较性菜品分析(模型根据状况特定适宜性对四个候选菜肴进行排序)。这两个任务都需要整合配料证据、视觉烹饪线索和临床营养约束,为语言和视觉-语言模型中的基于证据的健康意识推理提供了标准化的测试平台。 FAM-Bench:面向条件感知的“食物即药物”推理的多模态基准 Mingyang Mao¹,\*, Bhargav Rishi Medisetti²,\*, Utkarsh Grover¹,\*, Tanvir Ibrahim², Wenyan Li³, Tingting Zhang², Xiaomin Lin¹,† ¹南佛罗里达大学电气工程系 ²南佛罗里达大学Muma商学院 ³哥本哈根大学计算机科学系 \*同等贡献。†通讯作者:[email protected] ## 1 引言 *“让食物成为你的药物。”*——希波克拉底 饮食是慢性病预防和管理中一个主要的可改变因素。饮食模式与心血管代谢和胃肠道疾病(包括心血管疾病、糖尿病、肥胖、高血压及相关病症)密切相关 (Willett, 1994 (https://arxiv.org/html/2605.31410#bib.bib10); Mozaffarian, 2016 (https://arxiv.org/html/2605.31410#bib.bib9))。慢性病也带来了巨大的临床和经济负担,占美国每年4.9万亿美元医疗支出的近90% (Centers for Disease Control and Prevention, 2025 (https://arxiv.org/html/2605.31410#bib.bib12))。这些压力重新激发了人们对“食物即药物”的兴趣,该方法将临床上合适的食物资源整合到医疗保健中,以预防、管理或治疗疾病 (Volpp et al., 2023 (https://arxiv.org/html/2605.31410#bib.bib13))。 参见图注 图1:从食物理解到“食物即药物”推理。先前的基准询问*“这是什么菜?”*、*“它含有什么?”*或*“它适合吗?”*(仅基于文本三元组)。FAM-Bench增加了缺失的决策层:给定一张菜肴图片、其配料清单和一个目标条件,模型必须基于有害成分得出适宜性判断。 核心挑战在于决策导向性。一道菜并非普遍健康或不健康:其适宜性取决于目标条件、配料、烹饪方法和营养含义。同一餐食可能适合某种健康状况,但可能不适合另一种。隐藏钠含量的菜肴可能对高血压患者有风险;添加糖或精制碳水化合物可能与2型糖尿病冲突;高钾、高磷或高蛋白负荷可能对慢性肾病有影响;而触发成分可能影响胃食管反流病(GERD)。当前的食物AI基准并未直接测试这种能力。现有资源主要评估菜品识别、食谱理解、配料提取、营养估算或一般营养问答 (Bossard et al., 2014 (https://arxiv.org/html/2605.31410#bib.bib14); Marın et al., 2021 (https://arxiv.org/html/2605.31410#bib.bib15); Yagcioglu et al., 2018 (https://arxiv.org/html/2605.31410#bib.bib16); Wróblewska et al., 2022 (https://arxiv.org/html/2605.31410#bib.bib17); Thames et al., 2021 (https://arxiv.org/html/2605.31410#bib.bib18); Hua et al., 2024 (https://arxiv.org/html/2605.31410#bib.bib19); Zhang et al., 2025 (https://arxiv.org/html/2605.31410#bib.bib26))。这些任务提供了重要的基础,但仍然主要是描述性的。它们没有系统地评估模型能否将多模态食物证据转化为特定条件的饮食决策。图1 (https://arxiv.org/html/2605.31410#S1.F1) 展示了FAM-Bench如何增加缺失的检测层。 我们引入了**FAM-Bench**¹¹(¹¹代码、数据和评估脚本已发布在匿名评审仓库:https://github.com/anonymous-research-artifact123/Food-as-medicine。接收后将取消匿名。),一个针对这一缺失决策层的多模态“食物即药物”基准,要求模型不仅回答*“这是什么菜?”*或*“它含有什么?”*,还要回答*“这道菜适合这种健康状况吗?”*FAM-Bench包含2500个经营养专家验证的实例,来源于3859个独特食谱,覆盖13种与饮食相关的健康状况。我们在五个多模态模型上评估FAM-Bench,包括前沿闭源系统(GPT-5.4 (OpenAI, 2025 (https://arxiv.org/html/2605.31410#bib.bib56)), Claude Sonnet 4.6 (Anthropic, 2026 (https://arxiv.org/html/2605.31410#bib.bib57)), Gemini 2.5 Pro (Comanici et al., 2025 (https://arxiv.org/html/2605.31410#bib.bib58)))和开源权重VLM(Qwen3-VL-8B (Bai et al., 2025 (https://arxiv.org/html/2605.31410#bib.bib59)), Gemma-3-12B (Kamath et al., 2025 (https://arxiv.org/html/2605.31410#bib.bib60))),在基线、思维链(COT)(Wei et al., 2022 (https://arxiv.org/html/2605.31410#bib.bib51))、知识注入(KI)以及COT+KI提示方式下进行。我们的贡献可总结如下: - •**问题形式化**。我们将“食物即药物”形式化为一个多模态、条件感知的决策问题,涉及菜肴图片、配料清单和健康状况提示。 - •**基准构建**。我们引入了FAM-Bench,包含2500个经营养专家验证的实例,来源于3859个食谱,覆盖13种与饮食相关的健康状况。 - •**评估协议**。我们定义了两个任务:菜品级适宜性评估和比较性菜品分析,并设计了准确性、依据性、排序和跨任务一致性等指标。 - •**实证发现**。我们评估了五种VLM在四种提示模式下的表现,结果表明,给出判断仍然比提供依据或条件感知排序更容易。 ## 2 相关工作 #### 食物理解与营养基准。 食物AI基准主要评估描述性食物理解。Food-101研究菜品分类Bossard等人 (2014 (https://arxiv.org/html/2605.31410#bib.bib14)),Recipe1M+将食谱与图像对齐以实现跨模态检索Marın等人 (2021 (https://arxiv.org/html/2605.31410#bib.bib15)),RecipeQA评估程序性食谱理解Yagcioglu等人 (2018 (https://arxiv.org/html/2605.31410#bib.bib16)),而TASTEset提取结构化食谱实体,如配料、数量和烹饪过程Wróblewska等人 (2022 (https://arxiv.org/html/2605.31410#bib.bib17))。面向生成的语料库(如RecipeNLG)进一步支持大规模食谱合成Bień等人 (2020 (https://arxiv.org/html/2605.31410#bib.bib37))。营养基准从食物身份转向食物成分:Nutrition5k提供真实菜肴的视觉和营养标注Thames等人 (2021 (https://arxiv.org/html/2605.31410#bib.bib18)),NutriBench评估LLM在卡路里和宏量营养素估算方面的表现Hua等人 (2024 (https://arxiv.org/html/2605.31410#bib.bib19)),最近的多模态基准(如January Food Benchmark和DiningBench)将评估范围扩展到配料推理、营养估算和膳食领域VQAHosseinian等人 (2025 (https://arxiv.org/html/2605.31410#bib.bib20)); Jin等人 (2026 (https://arxiv.org/html/2605.31410#bib.bib21))。这些资源为食物AI提供了视觉、语言和营养基础,但其目标仍然是描述性的:一道菜是什么、含有什么或如何制备。 #### 个性化与健康意识膳食推理。 一条相关的研究方向从描述转向膳食指导。ChatDiet、NutriGen、HealthGenie和NutriVision利用LLM、结构化知识、用户偏好或视觉-语言输入进行营养推荐和膳食规划Yang等人 (2024 (https://arxiv.org/html/2605.31410#bib.bib22)); Khamesian等人 (2025 (https://arxiv.org/html/2605.31410#bib.bib39)); Gao等人 (2025 (https://arxiv.org/html/2605.31410#bib.bib23)); Veeramreddy等人 (2024 (https://arxiv.org/html/2605.31410#bib.bib40))。食物专用模型(如LLaVA-Chef和FoodSky)将多模态和语言模型应用于食谱生成、烹饪推理和饮食知识Mohbat and Zaki (2024 (https://arxiv.org/html/2605.31410#bib.bib30)); Zhou等人 (2025 (https://arxiv.org/html/2605.31410#bib.bib31))。最接近的基准线是健康意识营养推理:NGQA将营养推理形式化为关于用户、食物、营养素和医疗条件的图问答Zhang等人 (2025 (https://arxiv.org/html/2605.31410#bib.bib26)),相关研究还包括约束性食物图QA、临床健康意识生成、食品安全知识图谱和药食同源Chen等人 (2021 (https://arxiv.org/html/2605.31410#bib.bib27)); Feng等人 (2023 (https://arxiv.org/html/2605.31410#bib.bib28)); An等人 (2026 (https://arxiv.org/html/2605.31410#bib.bib29)); Gong等人 (2024 (https://arxiv.org/html/2605.31410#bib.bib24)); Sha等人 (2025 (https://arxiv.org/html/2605.31410#bib.bib44))。这些工作将饮食与健康背景联系起来,但主要评估图QA、知识召回或系统特定推荐,而不是基于真实食谱的多模态菜肴级决策。 #### 安全性、依据性与决策导向评估。 医学LLM评估已逐渐从仅关注准确性转向关注危害性、事实性、幻觉和可靠性Singhal等人 (2023 (https://arxiv.org/html/2605.31410#bib.bib45)); Bedi等人 (2025 (https://arxiv.org/html/2605.31410#bib.bib46)); Pal等人 (2023 (https://arxiv.org/html/2605.31410#bib.bib47)); Min等人 (2023 (https://arxiv.org/html/2605.31410#bib.bib48))。推理和检索方法(包括思维链提示、Medprompt、RAG和MedRAG/MIRAGE)为知识密集型医学生成提供了常见的依据机制Wei等人 (2022 (https://arxiv.org/html/2605.31410#bib.bib51)); Kojima等人 (2022 (https://arxiv.org/html/2605.31410#bib.bib52)); Nori等人 (2023 (https://arxiv.org/html/2605.31410#bib.bib55)); Lewis等人 (2020 (https://arxiv.org/html/2605.31410#bib.bib53)); Xiong等人 (2024 (https://arxiv.org/html/2605.31410#bib.bib54))。食品安全基准研究污染、储存、不安全制备、化学暴露和对抗性食品安全提示Jacxsens等人 (2010 (https://arxiv.org/html/2605.31410#bib.bib32)); Le Vallée and Charlebois (2015 (https://arxiv.org/html/2605.31410#bib.bib33)); Bryan等人 (1992 (https://arxiv.org/html/2605.31410#bib.bib34)); Muncke等人 (2025 (https://arxiv.org/html/2605.31410#bib.bib35)); Pekmezci等人 (2025 (https://arxiv.org/html/2605.31410#bib.bib36)); Luo等人 (2026 (https://arxiv.org/html/2605.31410#bib.bib50))。然而,针对慢性疾病的膳食适宜性仍未得到充分体现:现有基准很少测试模型能否将饮食决策依据于菜肴图片、配料证据和目标健康状况。 #### 本工作的定位。 FAM-Bench使食物AI中缺失的决策层可操作化:基于菜肴图片和配料证据的特定条件膳食判断。与描述食物、估算营养素或测试健康知识召回的先前基准不同,FAM-Bench评估模型能否在明确健康条件下评估菜肴级适宜性并对备选方案进行排序。这将评估从食物理解转向基于证据的“食物即药物”决策。关于食物基准、个性化营养系统、食物领域LLM、医学LLM安全评估和知识增强健康推理的更广泛讨论见附录A (https://arxiv.org/html/2605.31410#A1)。 参见图注 图2:FAM-Bench概述。食谱从健康信息和一般食品出版来源 (§3.1 (https://arxiv.org/html/2605.31410#S3.SS1)) 聚合,标准化为结构化菜肴记录,并通过一个基于规则、经专家验证的流水线 (§3.3 (https://arxiv.org/html/2605.31410#S3.SS3)) 针对13种饮食敏感条件的精选知识库进行标注。得到的2500个实例实例化了两个互补任务:菜品级适宜性评估和比较性菜品分析 (§3.2 (https://arxiv.org/html/2605.31410#S3.SS2))。 ## 3 基准构建 FAM-Bench包含2500个经专家验证的实例,覆盖13种饮食敏感的健康状况,分为1500个实例的*菜品级适宜性*任务和1000个实例的*比较性排序*任务。实例来源于由医学、临床营养和营养师来源策划的食谱语料库,并经注册营养师验证。图2 (https://arxiv.org/html/2605.31410#S2.F2) 概述了构建流水线。 ### 3.1 食谱收集 #### 来源。 该语料库从54个网络域汇总了3859个食谱,涵盖两个互补类别:*健康信息*层(由医学协会、临床营养项目和公共卫生机构维护的食谱门户)和*一般食品出版*层(食品出版物和营养师策划的烹饪网站)。来源构成和完整域名清单见附录B (https://arxiv.org/html/2605.31410#A2)。图3 (https://arxiv.org/html/2605.31410#S3.F3) 总结了地理覆盖范围。 #### 提取与筛选。 我们提取食谱元数据、配料行、制备说明和已发布的营养表,然后去重并丢弃含有不可解析配料或无法访问图片的条目。每个保留的食谱存储为规范化的结构化记录(附录C (https://arxiv.org/html/2605.31410#A3))。 ### 3.2 任务形式化 令一道菜为 \(d=(I,G)\),其中 \(I\) 是菜肴图片,\(G=\{g_1,\ldots,g_m\}\) 是其配料清单,令 \(h \in \mathcal{H}\) 表示目标健康状况。\(\mathcal{H}\) 涵盖13种饮食敏感疾病,包括心血管代谢、胃肠、肝脏和肾脏疾病;完整列表见附录G (https://arxiv.org/html/2605.31410#A7)(表5 (https://arxiv.org/html/2605.31410#A7.T5))。基于此表示,我们定义了两个互补任务,分别测试绝对和相对的膳食判断。两个任务的示例问题布局见附录K (https://arxiv.org/html/2605.31410#A11)。 #### 菜品级适宜性评估。 一个实例为 \(x=(d,h)\),标签为 \(y\in\mathcal{Y}=\{\textsc{suitable}, \textsc{not suitable}\}\)。当菜肴的配料和可见烹饪线索与 \(h\) 兼容时,该菜为**适宜**;当证据表明存在条件相关的冲突(例如,添加糖对于2型糖尿
相似文章
介绍 HealthBench
OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。
AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现
AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。
WildTableBench:在真实场景中评估多模态基础模型的表格理解能力
WildTableBench 提出了首个针对真实世界表格图像的问答应答基准,揭示了现有多模态基础模型在结构感知和数值推理方面存在显著困难,仅有1个模型准确率超过50%。
MedicalBench:评估大型语言模型以改进医学概念提取
MedicalBench是一个新的基准测试,用于评估大型语言模型从电子健康记录中提取医学概念的能力,重点关注隐含推理和证据支撑。它包含823个专家标注的示例,并显示当前模型表现一般,突显了提取隐含表述的医学概念的难度。
FAB-Bench:面向半导体制造的自适应RAG基准评估框架
FAB-Bench是一个用于评估半导体制造中检索增强生成(RAG)系统的基准框架,包含六项诊断指标和跨上下文窗口的分析。它提供了200个精选的问答对,并揭示了上下文缩放行为和注意力稀释问题。