ImmigrationQA:一个基于来源的数据集及面向美国移民法的小型模型适配
摘要
本文介绍了ImmigrationQA,一个包含17,058个问答对的、基于来源的美国移民法数据集,并使用LoRA对Llama 3.2 3B模型进行微调,在保留的评估集上相比基础模型提升了27%。
arXiv:2605.30589v1 Announce Type: new
摘要:美国移民法涵盖数千页的官方政策、联邦法规和程序指南,这些内容频繁变更,且对缺乏法律代理的申请人影响重大。我们描述了ImmigrationQA的构建过程——一个包含13个移民子领域、共17,058个问答对的基于来源的问答数据集,以及使用参数高效LoRA方法在该数据集上对Llama 3.2 3B Instruct模型进行微调。语料库来自11个主要和次要来源——包括USCIS政策手册、8 CFR、BIA先例判决和社区问答——最终获得10,056份经过验证的规范文档和18,308个文本块。使用Claude Sonnet 4.6通过五种模式特定提示从这些文本块生成结构化问答对,其中22对因源文本重叠不足被剔除。微调后的模型在993个保留样本上使用LLM作为评判员进行了评估,基于101个样本分层抽样的评分。微调模型平均得分为1.08/3.0(16.8%完全正确;101样本分层评估),而Llama 3 8B基础模型为0.85/3.0(4%完全正确),平均分数相对提升27%;零样本Claude Sonnet基线得分为1.52/3.0(25%完全正确)。微调模型在程序性子领域(旅行证件、身份调整、非移民签证)上表现出集中改进,但在复杂法律推理和时效性统计数据方面仍然薄弱。整个流程在云计算上的花费约为29美元。所有成果——数据集、模型、代码和提示模板——均已公开发布。本系统不能替代法律咨询,且不反映语料爬取日期之后的法规变化。
查看缓存全文
缓存时间: 2026/06/01 09:26
# 基于源文本的美国移民法数据集与小模型适配
来源: https://arxiv.org/html/2605.30589
\(2026年5月\)
###### 摘要
美国移民法涵盖数千页的官方政策、联邦法规和程序指南,这些内容频繁变更,且对缺乏法律代理的申请人而言后果严重。本文介绍了 ImmigrationQA 的构建过程——一个包含 17,058 对问答、覆盖 13 个移民子领域的源文本溯源问答数据集,以及使用参数高效的 LoRA 在该数据集上对 Llama 3.2 3B Instruct 模型进行微调。语料库来自 11 个主要和次要来源——包括 USCIS 政策手册、8 CFR、BIA 先例判决和社区问答——最终得到 10,056 份经过验证的标准文档和 18,308 个文本块。使用 Claude Sonnet 4.6 通过五种模式特定提示从这些文本块中生成结构化问答对,其中 22 对因源文本跨度重叠不足被剔除。微调后的模型在 993 对留出测试集上,使用 LLM-as-judge 评分方法对 101 个样本进行分层评估。微调模型平均得分为 1.08/3.0(完全正确率 16.8%;101 样本分层评估),而 Llama 3 8B 基础模型得分为 0.85/3.0(完全正确率 4%),平均分相对提升 27%;零样本 Claude Sonnet 基线得分为 1.52/3.0(完全正确率 25%)。微调模型在程序性子领域(旅行证件、身份调整、非移民签证)上表现出集中提升,但在复杂法律推理和时效性统计方面仍然薄弱。整个流程的云计算费用约为 29 美元。所有成果——数据集、模型、代码和提示模板——均已公开发布。该系统不能替代法律咨询,且未反映语料库抓取日期之后的法规变更。
## 1 引言
美国移民法是一个程序密集、实际后果重大的领域。提交 I-485 表格申请身份调整的申请人必须跟踪申请费、支持证据清单、生物识别预约以及因签证类别而异的申请截止日期。庇护申请人必须了解一年期限的例外情况和取决于具体申诉理由的证据标准。这些细节记录在官方政府来源中,但要查阅它们,需要同时阅读 USCIS 政策手册、联邦法规、机构 FAQ 页面和表格说明。
通用语言模型在处理此类查询时表现不佳。它们经常混淆相似名称的表格号码,错误陈述截止日期,并混淆不同签证类别的程序要求。核心困难在于数据:尽管官方移民指南是公开可用的,但相对于其程序复杂性,在大多数 LLM 使用的预训练语料库中,这些数据却很少。
本文通过两个贡献来解决这一差距。首先,我构建了 ImmigrationQA,一个包含 17,058 对源文本溯源的问答数据集,这些数据来自 11 个官方和社区来源,覆盖 13 个移民子领域。每一对都标注了答案类型、移民子主题、权威级别、来源出处和时效性标志。其次,我使用 LoRA 通过 AWS SageMaker JumpStart 在 ImmigrationQA 上微调了 Llama 3.2 3B Instruct,并将结果与基础模型和零样本强模型基线进行了比较。
主要发现如下:
1. 1. 可以从公共来源收集一个包含 10,056 份标准移民文件的语料库,进行分块,并转换为结构化问答对,云计算费用不到 29 美元。
2. 2. 在此数据上微调一个 3B 参数模型,相对于同系列基础模型,在 101 样本分层评估中,LLM 评判的平均分从 0.85 提升到 1.08(0–3 分制)。
3. 3. 提升集中在程序性子领域;微调模型在多步骤法律推理、特定法规的数字事实和时效性统计方面仍然薄弱。
4. 4. 数据集、模型、代码和生成提示已公开发布,以支持小模型法律适配的进一步工作。
该模型不应被用作法律建议或合格移民律师的替代品。其输出反映的是在固定时间点抓取的来源,可能不反映当前的 USCIS 政策。
## 2 相关工作
#### 法律 NLP 与基准。
法律 NLP 已发展成为一个广泛的领域,涵盖合同分析、判例法总结、法规推理和多标签分类 (Chalkidis et al., 2020 (https://arxiv.org/html/2605.30589#bib.bib4); Hendrycks et al., 2021 (https://arxiv.org/html/2605.30589#bib.bib5); Chalkidis et al., 2021 (https://arxiv.org/html/2605.30589#bib.bib8))。LegalBench (Guha et al., 2023 (https://arxiv.org/html/2605.30589#bib.bib1)) 提供了一个协作构建的 162 项法律推理任务评估套件;它涵盖法规解释、规则应用和合同分析,但不包括移民特定的程序性问答组件。The Pile of Law (Henderson et al., 2022 (https://arxiv.org/html/2605.30589#bib.bib13)) 提供了 256 GB 的开放法律文本,但原始法规语料库需要领域定向的标注管道才能产生反映程序细节的问答对。
#### 法律语言领域的域适应与指令微调。
LEGAL-BERT (Chalkidis et al., 2020 (https://arxiv.org/html/2605.30589#bib.bib4)) 证明了在法律语料库上预训练相对于通用 BERT 在法律分类任务上能显著提高性能。最近,LawInstruct (Zheng et al., 2023b (https://arxiv.org/html/2605.30589#bib.bib7)) 发布了跨多个司法管辖区的指令微调数据。这两项工作都侧重于判例法和合同;程序性移民指南——基于官方政策的简短 FAQ 式答案——在结构上不同于主导这些语料库的论证性或分析性文本。Mahari et al. (2024 (https://arxiv.org/html/2605.30589#bib.bib9)) 表明,检索增强架构在法律问答上优于纯参数化方法,这也是当前工作的一个局限性。
#### 用于指令微调的合成数据生成。
Self-Instruct 范式 (Wei et al., 2022 (https://arxiv.org/html/2605.30589#bib.bib10); Ouyang et al., 2022 (https://arxiv.org/html/2605.30589#bib.bib11)) 使用强模型为弱模型生成训练数据。应用于法律领域时,需要仔细的源文本溯源,以避免产生幻觉式的法律主张。在这项工作中,问答对是使用模式特定提示从文档块生成的;每个答案必须追溯到源文本跨度,并且答案与源文本跨度没有词汇重叠的配对被拒绝(第 4 节 (https://arxiv.org/html/2605.30589#S4))。对于高风险领域,这是一个保守但可审计的过滤器。
#### 参数高效微调。
LoRA (Hu et al., 2022 (https://arxiv.org/html/2605.30589#bib.bib2)) 将可训练的低秩矩阵注入注意力投影,从而在少量参数预算下实现域适应。QLoRA (Dettmers et al., 2023 (https://arxiv.org/html/2605.30589#bib.bib14)) 通过 4 位量化基础权重扩展了这一点。本工作使用标准 LoRA,不量化基础权重,依赖 SageMaker JumpStart 的托管训练环境处理 Llama 3.2 3B 检查点。
#### LLM-as-judge 评估。
Zheng et al. (2023a (https://arxiv.org/html/2605.30589#bib.bib12)) 确立了 LLM-as-judge 作为开放生成评估中人类偏好的可靠代理。本文采用相同范式:在从留出测试集中抽取的 101 个样本分层样本上,Claude Sonnet 模型根据 0–3 分制评分标准对每个预测进行评分并给出书面理由。
## 3 数据来源与语料库构建
### 3.1 来源识别
文档来自 11 个来源,涵盖四个权威层级(表 1 (https://arxiv.org/html/2605.30589#S3.T1))。主要官方来源包括 USCIS、DOJ、DHS 和国会直接发布的材料。二级信誉良好的来源包括开放法律库,如 The Pile of Law 和 theharshitha008/US-immigration-laws Hugging Face 数据集。社区来源包括 Law StackExchange 和 VisaJourney 论坛;这些来源用于覆盖口语化的程序性问题,但被标记为 `community_non_authoritative`。
表 1:按权威层级划分的来源注册表。记录数为去重后的标准文档。USCIS FAQ 和 myUSCIS 帮助页面占标准文档的大部分(11,327 份原始文档中的 8,934 份,在语料库验证之前)。去重和验证后,10,056 份文档进入语料库。被移除的 1,271 份文档未能通过一项验证过滤器:缺少标准 URL,这被视为来源不确定的代理指标。
### 3.2 爬取与解析
每个来源在 `scripts/crawl/` 中都有一个专用爬虫。爬虫遵循 `robots.txt`,强制 1.5 秒请求延迟,并使用描述性用户代理进行自我标识。原始文件(HTML、PDF、纯文本)存储在 S3 的 `v1/data_raw/{source}/{doc_id}` 下。
特定格式的解析器从 HTML 和 PDF 中提取干净文本。标准化步骤分配稳定的 `doc_id`(标准 URL 的 SHA-256),附加源元数据,使用词元级 Jaccard 相似性检测近似重复文档,并根据来源注册表分配权威层级。
### 3.3 分块
文档使用句子边界感知的分割器分块为 512 词元窗口,重叠 64 词元,生成 18,308 个块。块的元数据包含父 `doc_id`、源类型、权威级别以及从源级标签继承的移民子主题标签。
### 3.4 数据集统计
表 2 (https://arxiv.org/html/2605.30589#S3.T2) 显示了经过验证的语料库文档和问答对在 13 个移民子领域中的分布。分布不均:家庭类移民和庇护类共同占语料库文档的 54% 和问答对的 63%,反映了这些领域 USCIS FAQ 覆盖的广度。就业类移民、上诉和旅行证件覆盖较少。
表 2:按移民子领域划分的语料库和问答对计数。语料库文档计数基于覆盖报告;问答对计数包括所有经过验证的训练和评估示例。† 人道主义文档与庇护、驱逐和可接受性来源有很大重叠。同一份文档可以为多个子领域的问答批次贡献块,因为块级的子主题标签是独立于文档级去重分配的;10,056 的总数仅反映文档级的去重。
训练集中答案类型的分布为:事实型 66%、资格型 11%、程序型 11%、定义型 4%、例外型 4%,其余 4% 分布在申请程序、法规解释、所需文件、时间和案件结果中。平均问题长度为 14.7 个词元;平均答案长度为 23.5 个词元。权威级别几乎均匀分布:47.9% 为主要官方来源,52.1% 为二级信誉良好来源。在 16,065 个训练对中,7,640 个(47.6%)带有 `time_sensitive` 标志,表明答案引用了可能变更的法规、费用、日期或统计数据。
## 4 问答生成与验证
### 4.1 生成管道
使用 Claude Sonnet 4.6 通过 Amazon Bedrock 从语料库块生成问答对。定义了五种生成模式,每种模式都有与源类型匹配的不同提示(表 3 (https://arxiv.org/html/2605.30589#S4.T3))。
表 3:问答生成模式与源类型映射。每个提示共享一个共同的系统指令,要求每个答案必须能从提供的文本块中推导出来,并且输出必须是有效的 JSON。模式特定的用户提示在输出模式和答案类型词汇上有所不同。例如,`form` 模式要求答案类型来自 {eligibility, required_docs, filing_procedure, timing, post_filing};`rule` 模式要求 {factual, eligibility, procedural, definition, exception}。每个输出对象包含 `question`、`answer` 和 `source_span`(来自文本块的精确引用,最多 200 个字符)。完整的提示模板见附录 A (https://arxiv.org/html/2605.30589#A1)。
每个请求传递一个最多 6,000 个字符的块,以避免超出 Bedrock 上下文限制。模式根据源元数据自动推断。
### 4.2 模式与元数据丰富
生成后,每个原始输出被解析并丰富以下内容:`qa_id`(UUID)、`source_doc_id`、`source_url`、`authority_level`(从父文档继承)、`immigration_subtopic`(来自块的子域标签)、`generation_mode` 以及 `time_sensitive` 标志(当答案包含年份、费用金额、表格号码或法规引用时设置)。
### 4.3 验证与过滤
应用三个拒绝过滤器。首先,答案少于 10 个词元的被拒绝(移除 5 对)。其次,答案与 `source_span` 没有词元重叠的配对被作为幻觉风险拒绝(移除 22 对)。第三,在 LLM 辅助审查中被标记为 `contradiction_flagged` 的配对会通过但带有警告标签;它们不会被移除,因为某些矛盾反映了来源本身的真实歧义,而非生成错误。
在 17,079 个原始生成的配对中,17,058 个通过验证并进入数据集。22 个被幻觉标记拒绝的配对集中在 `statistics` 模式,该模式下模型偶尔会产生听起来合理但无依据的数字。
### 4.4 数据集划分
我们按移民子主题进行分层划分:16,065 对(94.2%)用于训练,993 对(5.8%)用于评估。分层确保每个子领域在两种划分中都出现。评估划分在语料库构建或生成过程中的任何时刻都未被使用。
## 5 微调设置
### 5.1 模型与格式
微调目标是通过 SageMaker JumpStart 模型 ID `meta-textgeneration-llama-3-2-3b-instruct` 使用 Meta Llama 3.2 3B Instruct。训练示例格式化为 Llama 3.1 聊天模板:每个示例是一个两轮对话,包括一个用户问题和一个助手回答。训练期间未添加系统提示。
### 5.2 超参数
表 4:微调超参数。配置使用 `r=32`,`alpha=64`(`2×r` 约定),针对所有四个注意力投影矩阵。这是一个比常见默认值(`r=8`)容量更高的 LoRA 配置,以适应移民程序词汇的广度。学习率选择为 5e-5,较为保守,以避免灾难性遗忘基础模型的指令遵循行为。LoRA 适配器在导出时合并到基础权重中,生成一个可部署的检查点。
### 5.3 成本
总计算成本为 29 美元,主要由 Bedrock 词元使用费构成,约 18 美元,用于大约 17K 次生成调用。SageMaker 训练作业在 `ml.g5.2xlarge` 实例上运行约两小时,花费 10 美元;S3 存储和数据传输占剩余 1 美元。
表 5:管道成本明细。
## 6 评估
### 6.1 设置
在从 993 对留出评估划分中抽取的同一 101 样本分层样本上评估三个系统:
1. 1. Llama 3 8B(基础,零样本):未经微调直接提示的 Llama 3 8B Instruct 基础模型。
2. 2. Llama 3.2 3B(微调,v3):本工作产生的微调模型。
3. 3. Claude Sonnet 4.6(零样本):强模型上限参考。
101 个示例按比例从所有 13 个子领域抽取。每个系统接收相同的提示:逐字给出的用户问题,不添加额外上下文或检索文档。相似文章
找不到地点:揭示多语言 LLM 中的隐式本地与全球偏见
Google Research 发布覆盖 12 种语言的 LocQA 数据集,发现多语言大模型在回答含混的地域相关问题时表现出强烈的美国中心与人口基数驱动的地域偏见。
UA-Legal-Bench:评估大语言模型在乌克兰法律推理能力的基准
介绍了UA-Legal-Bench,这是一个基于统一国家法院判决登记册构建的、用于评估大语言模型在乌克兰法律推理能力的五项任务基准。评估了11个LLM,揭示了任务相关的少样本效应以及在不平衡法律任务中准确率的误导性。
DLawBench:通过多轮法律咨询评估大语言模型
DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。
基于领域特定知识图谱的面向旅游的推理大语言模型
本文提出一个模块化流水线,使用领域特定知识图谱生成多跳问答对,并微调一个面向旅游领域的推理大语言模型 (Qwen3-4B),实现了82.4%的精确匹配准确率,显著优于基线模型。
QU-NLP 亮相 QIAS 2026:面向阿拉伯语伊斯兰继承推理的多阶段 QLoRA 微调
本文介绍了卡塔尔大学针对阿拉伯语伊斯兰继承推理提出的基于 Qwen3-4B 的多阶段 QLoRA 微调方法。该方法首先对伊斯兰教令(fatwa)记录进行领域适配,随后在 12,000 个结构化继承案例上进行任务特定训练,最终达到 90% 的 MIR-E 得分。其性能媲美 Gemini-2.5-flash 等商业系统,且仅需极少的计算资源。