Losses that Cook: 用拓扑最优传输实现结构化食谱生成

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文提出基于拓扑最优传输的损失函数，用于改进语言模型中的结构化食谱生成。该方法通过更好地处理食材组成、数量和程序准确性，克服了标准交叉熵训练的局限。实验结果表明，在食谱特定指标上有显著提升，人类偏好度达到62%，超越基线方法。

arXiv:2601.02531v2 公告类型: 替换 **摘要:** 烹饪食谱是复杂的程序，不仅需要流畅准确的文本，还需要正确的时间安排、温度控制和程序连贯性，以及正确的食材组成。标准训练方法主要基于交叉熵损失，仅关注文本流畅性。基于 RECIPE-NLG，我们研究了多个复合目标函数，并提出一个新的拓扑损失，将食材列表表示为嵌入空间中的点云，最小化预测食材与标准食材之间的分布差异。利用标准NLG指标和食谱特定指标，我们发现该损失函数显著改进了食材级和操作级的指标。同时，Dice损失在时间/温度精度上表现优异，混合损失在数量和时间方面取得竞争性的权衡并产生协同效应。人类偏好分析验证了我们的发现，显示我们的模型在62%的情况下被更加偏好。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:31

# 拓扑最优传输用于结构化食谱生成

来源：https://arxiv.org/html/2601.02531

Mattia Ottoborgo1, Daniele Rege Cambrin2, Paolo Garza2
1Trustpilot 2Politecnico di Torino
通讯作者：[email protected]，{daniele.regecambrin,paolo.garza}@polito.it

###### 摘要

烹饪食谱是复杂的程序，不仅需要流畅准确的文本，还需要精确的时间、温度和程序连贯性，以及正确的配料组成。标准训练过程主要基于交叉熵，仅关注流畅性。基于 RECIPE-NLG，我们研究了多个复合目标函数的使用，并提出了一种新的拓扑损失函数，将配料列表表示为嵌入空间中的点云，最小化预测和真实配料之间的散度。使用标准语言生成指标和食谱特定指标，我们发现我们的损失函数显著改进了配料级和动作级指标。同时，Dice 损失在时间/温度精度上表现出色，混合损失产生了竞争性的权衡，在数量和时间上产生了协同增益。人类偏好分析支持我们的发现，表明我们的模型在 62% 的情况下被更加偏好。

## 1 介绍

使用语言模型生成可用的烹饪食谱不仅需要流畅的文本：模型必须生成配料、数量和逐步说明，这些必须是事实准确的、数值合理的和程序可执行的。在这种情况下，少数关键词元（例如，在意大利面条烤培根蛋中省略"鸡蛋"或将烹饪温度翻倍）上的错误可能会使整个食谱无法使用，即使文本流畅且语义与正确输出相似（Bień 等，2020；Liu 等，2025）。

标准的交叉熵（CE）微调不适合这种挑战，因为它将所有令牌视为同样重要，尽管高影响令牌（配料、数量、时间、温度、核心动作）和低影响连接词之间存在强烈的不对称性（Chen 等，2024）。这种不对齐表现为常见的失败模式：配料回忆差、数量不准确以及语法上合理但程序上不正确的指令序列。关于食谱生成和结构化文本生成的现有工作主要依赖于基于 CE 的目标、束搜索或模式约束解码，但没有直接通过训练损失针对配料集合和食谱数值方面的整体组成（Lam 等，2024）。

同时，一些工作在其他自然语言处理（NLP）任务中探索了替代或辅助目标，例如焦点损失和 Dice 损失（Rege Cambrin 等，2024）。这些方法表明，重新思考损失函数可以将模型引向稀有但重要的事件或整体集合属性；然而，它们尚未被系统地应用于结构化食谱生成，也没有利用食谱的固有拓扑。此外，标准自然语言生成（NLG）指标，如 ROUGE（Lin 2004）和 BERTScore（Zhang 等，2020），捕捉流畅性和语义相似性，但未能直接衡量食谱是否准确指定了配料、数量和烹饪参数。

本工作通过关注在 RECIPE-NLG 语料库的有限子集（意大利面、米饭和三明治）上微调的小型语言模型（SLMs）来解决这些差距（Bień 等，2020）。我们引入了一种拓扑损失，将配料列表表示为嵌入空间中的点云，并最小化预测和真实配料之间的 Sinkhorn 散度（Cuturi 2013），显式编码超越令牌级 CE 的配料级结构。我们进一步研究了如何将我们的提议与现有损失结合，以平衡配料结构与数值精度。为了评估这些目标函数，我们设计了一套食谱特定的指标，包括配料回忆、数量精度、动作和步骤编辑距离，以及时间/温度精度，除了标准文本指标。

我们的实验表明，将 CE 与提议的拓扑损失相结合，相比仅使用 CE，在配料回忆、数量精度和程序准确性方面显著改进，而基于 Dice 的损失在时间和温度精度方面表现出色。混合损失产生了全面的权衡，在某些情况下产生协同增益（例如，在数量和时间精度上），对 CE 和单个自定义损失有许多改进。总之，这些结果表明，精心设计的损失函数可以有意义地改进 SLMs 中的结构化食谱生成，而不会增加模型大小或推理时间复杂性。我们在 https://github.com/DarthReca/losses-cook 上发布代码以便重现。

## 2 方法

本节介绍任务、数据集、提议的损失函数和评估指标。

### 2.1 任务

我们将结构化食谱生成形式化为映射 f: P_in → R_out，其中 P_in 是自然语言提示（例如，"生成意大利面条烤培根蛋的食谱"），R_out = {I, S} 是包含以下内容的结构化 JavaScript 对象表示法（JSON）输出：(1) 配料列表 I = {I_1, I_2, ..., I_n}，以及 (2) 指令步骤列表 S = {S_1, S_2, ..., S_m}，如附录 A 所示。目标是学习满足多个约束条件的 f：流畅性、事实正确性（适当的配料）、数值精度（合理的数量、时间、温度）和程序连贯性（逻辑指令序列）。

### 2.2 数据集

我们使用来自 RECIPE-NLG 的 5,000 个食谱的子集（Bień 等，2020），专注于意大利面、米饭和三明治菜肴，以确保训练集和测试集之间的分布一致性（知道如何煮米不一定能帮助你准备好牛排）。为了改进特定领域的学习，我们用 235 个手动精选的烹饪问题增强了数据集，涵盖：缺失配料识别、配料替代、食谱缩放、数量推理、时间估计和温度指定。这些问题教导模型配料之间的关键关系和食谱生成所需的数值推理。更多详情和示例报告在附录 A 中。

### 2.3 损失函数

标准交叉熵（CE）最小化 L_CE = -log p_c，其中 p_c 是模型对正确令牌 c 的预测概率。我们将仅 CE 微调作为我们的主要基线。我们还评估焦点损失（Lin 等，2017），它通过调制因子 (1-p_t)^γ 对简单示例进行降权以解决令牌频率不平衡，以及 Dice 损失（Sudre 等，2017），它使用可微 Dice 系数优化集合级重叠以鼓励正确的令牌集。

#### 2.3.1 拓扑损失

我们的主要贡献是在嵌入空间中操作的拓扑损失，以捕捉配料部分的结构连贯性。关键洞察是表示语义相似的配料列表的令牌序列应该在嵌入空间中形成几何上相似的形状，不像交叉熵，它将所有替换视为同样重要，无论语义接近程度如何。

我们从配料部分内的所有令牌构造嵌入空间中的两个点云：(1) 对于预测的食谱，我们通过对输出 logits 应用 softmax 生成软概率嵌入 P = softmax(logits)，并计算加权嵌入平均值 emb_soft = P·E，其中 E 是模型的令牌嵌入矩阵，如图 1 所示。(2) 对于真实情况，我们执行标准嵌入查找。

图 1：软嵌入计算：输出 logits z 使用 softmax 转换为令牌概率 p，用于计算模型嵌入矩阵 E 上的可微加权平均值，创建 emb_soft = p·E。

然后，损失函数使用 Sinkhorn 散度 S_ε（Cuturi 2013；Cuturi 和 Peyré 2016）测量这些云之间的几何差异，这是最优传输（Wasserstein）距离的可微近似：

L_Topo = S_ε(PC_pred, PC_target)

其中 ε 是熵正则化参数。这鼓励模型生成在嵌入空间中既语义上又结构上连贯的配料列表，而不仅仅是令牌级精确，如图 2 所示。

图 2：损失在嵌入空间中对齐真实（黑色）和预测（蓝色）令牌。共享令牌如"flour"（带有蓝色光晕的黑点）有零传输成本。损失最小化分歧令牌的传输距离，惩罚语义移位（例如，"salt"→"pepper"）和结构偏差（例如，"egg"→"eggs"）。

### 2.4 评估指标

为了全面评估食谱质量，我们结合标准 NLG 指标与食谱特定的措施。我们报告 ROUGE-1（R1）和 BERTScore F1（BS）以测量语言流畅性和语义连贯性。由于事实和程序正确性至关重要，我们引入了特设指标。配料回忆（IR）是正确生成的真实配料的比例；数量精度（QP）是正确回忆的配料数值数量的精度；动作精度（AP）是生成指令中关键烹饪动词（例如，煮沸、油炸、炒）的精度；动作（AD）和步骤（SD）编辑距离是烹饪动作序列或完整指令步骤序列与时间/温度之间的莱文斯坦距离，衡量程序正确性；时间（TiP）和温度（TeP）精度是指令中提到的时间持续时间和温度的精度。关于指标计算的更多详情提供在附录 B 中。

## 3 实验

本节介绍实验设置和结果。

### 3.1 实验设置

我们使用低秩自适应（LoRA）和 AdamW 优化器微调预训练的 Qwen3-4B 模型（Yang 等，2025；Hu 等，2022）。更多训练详情提供在附录 C 中。所有自定义损失（即 Dice、焦点和拓扑）都与交叉熵（CE）结合为复合目标函数，以保持语言流畅性，同时增强特定领域的正确性。在所有使用单个自定义损失的复合设置中，目标函数为 L = 0.6L_CE + 0.4L_custom，凭经验选择以保持流畅性同时在关键令牌上放大信号。我们还训练了混合损失配置，其中 L = 0.6L_CE + 0.2L_Dice + 0.2L_Topo。相同的增强数据集用于所有微调条件。我们将我们的模型与商业模型（Gemini 2.0 Flash）和更大版本的 Qwen3（14B 参数）进行了比较。为了评估观察到的趋势是否跨架构和参数规模泛化，我们额外评估了 SmolLM3-3B 和 Qwen2.5-1.5B；这些结果报告在附录 D 中。

### 3.2 定量评估

| 模型 | R1↑ | BS↑ | AP↑ | QP↑ | IR↑ | TeP↑ | TiP↑ | AD↓ | SD↓ |
|------|-----|-----|-----|-----|-----|-----|-----|-----|-----|
| 无微调 |
| Gemini 2.0 | 15.08 | 47.15 | 08.47 | 88.50 | 88.50 | 43.80 | 43.80 | 44.51 | 44.51 |
| | 37.47 | 37.47 | 76.88 | 76.88 | 36.92 | 36.92 | 36.21 | 36.21 | 48.60 |
| Qwen3-14B | 25.23 | 93.25.23 | 93.85.68 | 85.69 | 42.12 | 42.12 | 44.51 | 44.51 | 28.25 | 28.25 |
| | 81.71 | 81.71 | 41.98 | 41.98 | 35.97 | 35.97 | 38.09 | 38.09 |
| Qwen3-4B | 22.49 | 46.22 | 49 | 46.87.93 | 87.93 | 32.40 | 32.40 | 25.09 | 25.09 | 26.09 | 26.09 |
| | 39.84 | 39.84 | 41.45 | 41.45 | 48.50 | 48.50 | 52.09 | 52.09 |
| 微调 |
| Qwen3-4B FT CE | 27.30 | 48.27.30 | 48.88.78 | 88.78 | 45.09 | 45.09 | 50.94 | 50.94 | 35.98 | 35.98 |
| | 61.93 | 61.93 | 52.09 | 52.09 | 37.83 | 37.83 | 39.48 | 39.48 |
| 焦点 | 26.09 | 49.26.09 | 49.89.94 | 89.94 | 41.09 | 41.09 | 54.94 | 54.94 | 43.09 | 43.09 |
| | 59.60 | 59.60 | 48.52 | 48.52 | 37.40 | 37.40 | 38.05 | 38.05 |
| Dice | 29.87 | 44.29.87 | 44.90.49 | 90.49 | 50.59 | 50.59 | 57.44 | 57.44 | 44.90 | 44.90 |
| | 74.58 | 74.58 | 59.68 | 59.68 | 31.09 | 31.09 | 35.08 | 35.08 |
| 拓扑 | 30.39 | 85.30.39 | 85.90.97 | 90.97 | 59.68 | 59.68 | 63.93 | 63.93 | 48.59 | 48.59 |
| | 65.56 | 65.56 | 55.55 | 55.55 | 30.49 | 30.49 | 34.09 | 34.09 |
| 拓扑 + Dice | 31.90 | 45.31.90 | 45.90.99 | 90.99 | 57.59 | 57.59 | 65.09 | 65.09 | 47.09 | 47.09 |
| | 67.89 | 67.89 | 61.95 | 61.95 | 30.49 | 30.49 | 34.09 | 34.09 |

表 1：微调 Qwen3-4B 和预训练模型使用 ROUGE-1（R1）、BERTScore（BS）、动作精度（AP）、数量精度（QP）、配料回忆（IR）、温度精度（TeP）、时间精度（TiP）、动作距离（AD）、步骤距离（SD）的结果。**粗体**为最高性能，*斜体*为次高性能。FT = 微调；无微调 = 未微调。其他架构（SmolLM3-3B、Qwen2.5-1.5B）的结果报告在附录 D 中。

如表 1 所示，强大的预训练指令调优 LLMs（Gemini 2.0、Qwen3-14B 和 Qwen3-4B）在通用 NLG 指标（R1、BS）和食谱特定措施上都表现不如我们的微调模型。虽然 Qwen3-14B 改进了 Gemini 的 R1 并产生了最佳温度精度（TeP），但两个模型都表现出显著较弱的动作/配料接地（例如，较低的 AP 和 IR）和更大的程序偏差（AD、SD）相比微调目标函数。这表明通用会话能力不能直接转化为可执行的、满足约束的食谱生成，突出了领域自适应对于维护配料覆盖和步骤级对齐的重要性。

在微调配置中，即使是纯交叉熵（CE）也在 AP、QP、IR、TiP 和 TeP 上对预训练基线产生了巨大改进，同时还减少了 AD 和 SD，表明对真实食谱的程序忠实性更好。在复合目标函数中，焦点损失略微改进了 CE 的 BS 和 IR，但在大多数任务特定指标上落后于 Dice 和拓扑损失，表明单独重新加权困难令牌不足以强制执行细粒度烹饪约束（数量、时间和动作序列）。与此一致

Losses that Cook: 用拓扑最优传输实现结构化食谱生成

相似文章

拓扑增强的大语言模型对齐：轨迹拓扑损失与拓扑偏好优化

一个基于最优传输理论的在线增量学习潜在空间培育方法

DOT-MoE：面向MoE化的可微最优传输

使用最优传输改进 GANs

分布过程奖励模型：通过条件最优传输校准未来奖励的预测

提交意见反馈