EmbGen：利用重组语料库进行教学

arXiv cs.CL 2026/05/20 04:00 论文

synthetic-data fine-tuning instruction-tuning domain-adaptation embedding question-answering llm

摘要

EmbGen 是一种合成数据生成流水线，它通过嵌入相似度将语料库重组为实体-描述配对，从而生成多样化的问答对，用于在专业领域微调小型语言模型，显著提升了事实准确性。

arXiv:2605.19394v1 公告类型：新论文摘要：将小型指令调优模型适配到专业领域通常依赖于在精心策划的指令-响应示例上进行监督微调（SFT），但这种做法在大规模收集时成本高昂。由教师大语言模型从领域语料库生成的合成训练示例可以降低这一成本，但现有流水线可能会产生同质化的输出，并且不能始终如一地捕获跨段落或跨文档的依赖关系。我们提出了 EmbGen，这是一种合成数据生成流水线，它将语料库分解为实体-描述配对，利用从嵌入相似度推断出的语义结构重新组合它们，然后通过邻近采样、簇内采样和簇间采样，并配合簇专用的系统提示，生成问答（QA）对。我们在三个语义异质性不同的数据集上，在固定的token预算（500万和2000万token）下，将 EmbGen 与 EntiGraph、InstructLab 和 Knowledge-Instruct 进行了比较。我们使用词汇重叠指标、LLM-as-a-judge 评估标准和二元准确率（一种结合事实准确率和完整性的复合指标）进行评估。与最强基线相比，EmbGen 在异质性最高的数据集上，在500万token预算下将二元准确率提高了12.5%，在2000万token预算下提高了88.9%，同时在异质性较低的其他数据集上保持了竞争力。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:25

# EmbGen：使用重组语料进行教学
来源：https://arxiv.org/abs/2605.19394
查看 PDF (https://arxiv.org/pdf/2605.19394)

> 摘要：将小型指令微调模型适配到专业领域通常依赖监督微调（SFT），这需要精心策划的指令-响应示例，且大规模收集成本高昂。由教师大语言模型（teacher LLM）从领域语料生成的合成训练示例可以降低成本，但现有管道产生的输出往往趋于同质化，且难以持续捕获跨段落或跨文档的依赖关系。我们提出EmbGen——一种合成数据生成管道，它将语料库分解为实体-描述对，通过嵌入相似性推断的语义结构重新组合这些实体-描述对，然后通过邻近采样、簇内采样和跨簇采样（配合簇专精的系统提示）生成问答对。我们在三个语义异质性不同的数据集上，在固定令牌预算（5百万和20百万令牌）下，将EmbGen与EntiGraph、InstructLab和Knowledge-Instruct进行了比较。我们使用词汇重叠指标、基于大语言模型评判者的评估体系，以及由事实准确性和完整性组合而成的指标——二元准确性（Binary Accuracy）进行评估。在最异质的数据集上，相对于最强基线，EmbGen在5百万令牌预算下将二元准确性提升了12.5%，在20百万令牌预算下提升了88.9%，同时在异质性较低的其他数据集上保持了竞争力。

## 提交历史

来自：Anna Leontjeva [查看电子邮件](https://arxiv.org/show-email/cfdcde18/2605.19394)  
**[v1]** 2026年5月19日星期二 05:40:12 UTC（2,573 KB）

EmbGen：利用重组语料库进行教学

相似文章

SEA-Embedding：面向东南亚的开放可复现文本嵌入

生物医学命名实体识别与实体链接基准测试究竟衡量什么？一个语料库中心的诊断框架

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

Q-RAG：通过基于价值的 Embedder 训练实现长上下文多步检索

BeLink：生物医学实体链接结合生成式重排序

提交意见反馈