语言模型中的领域适应与推理框架:基于历史宇宙学的受控实验
摘要
本文通过在哥白尼前的语料库上训练,研究领域适应如何重塑语言模型中的解释行为,发现微调对解释框架的转变大于对宇宙学立场的转变。
arXiv:2605.30415v1 公告类型:新
摘要:我们以历史宇宙学作为受控环境,研究领域适应如何重塑语言模型中的解释行为。在第一阶段,我们从一个哥白尼前的语料库(已移除明确的日心说参考)从头训练一个小型语言模型,并评估是否仍然会出现地球运动或日心说的续写。在第二阶段,我们使用QLoRA对同一语料库微调一个更大的预训练模型,以研究适应如何改变解释框架和宇宙学立场。模型输出通过LLM作为评判者的框架进行评估,该框架同时标记宇宙学立场(地心说、日心说或模棱两可)和解释框架(前现代与现代)。在第一阶段的受限设置中,较小模型偶尔会生成局部的地球运动续写,但这些续写全局不稳定,不足以支持连贯的宇宙学推理。在第二阶段,微调导致向前现代解释框架的显著且统计上显著的转变,而在此框架内条件宇宙学立场分布相对稳定。因此,地心说输出的增加主要源于解释体制的重新分布,而非立场的直接修改。这些结果表明,领域适应可能主要重塑生成续写的语言框架,而立场的变化则其次从这些转变中产生。
查看缓存全文
缓存时间: 2026/06/01 09:22
# 语言模型中的领域适应与推理框架:基于历史宇宙学的一项受控实验 来源:https://arxiv.org/html/2605.30415 \\DTMlangsetup showdayofmonth=false ###### 摘要 我们以历史宇宙学作为受控实验环境,探究领域适应如何重塑语言模型的解释行为。在第一阶段,我们从一个经筛选的、已剔除显式日心说参考的前哥白尼语料库出发,从头训练一个小型语言模型,并评估其是否会生成地球运动或日心说的续写内容。在第二阶段,我们使用QLoRA在相同的语料库上对较大的预训练模型进行微调,以研究领域适应如何改变其解释框架和宇宙学立场。模型输出采用一个“LLM作为评判器”的框架进行评估,该框架同时标注宇宙学立场(地心说、日心说或模糊)和解释框架(前现代与现代)。在受到严格约束的第一阶段环境中,较小的模型偶尔会生成局部的“地球运动”续写,但这些续写整体上不稳定,不足以支持连贯的宇宙学推理。在第二阶段,微调导致了向“前现代解释框架”的巨大且统计上显著的转变,而在这些框架内,条件性的宇宙学立场分布则相对稳定。因此,地心说输出的增加主要源于解释模式的重新分布,而非立场的直接改变。这些结果表明,领域适应可能主要重塑生成续写的语言学框架,而立场的变化则是这些转变的次要产物。 ## 1 引言 关于语言模型能否产生其训练数据中未直接呈现的思想或解释性结构,一直存在争论。研究这一问题的难点之一在于定义何为这种概念上的突破,以及如何将其与训练分布中已存在模式的记忆、插值或重组区分开来。近期的研究已在科学构思、类比推理和假设生成等多个背景下探索了这个问题[9, 8]。然而,仍难以确定表面新颖的输出究竟反映了真正新颖的解释组织方式,还是仅仅是预训练期间已编码的潜在结构的检索与重组。 历史宇宙学为研究此问题提供了一个受控的实验环境。在许多科学领域,概念上的进步需要引入新的实体或机制,例如病毒和细菌取代了中世纪医学的体液理论。相比之下,从地心说到日心说的天文学变革是将已有的概念(如天体、行星运动、轨道结构)重新组织在一个不同的解释框架内。这使得我们能够探究:在受限的历史分布上训练的语言模型,是否仍能生成接近其微调语料库中缺失的概念结构的续写内容? 更具体地说,本工作研究了在受控的领域适应下,解释框架与宇宙学立场之间的关系。我们探究微调主要改变的是显式的宇宙学承诺、更广泛的解释组织方式,还是两者之间的相互作用。我们进行了一个包含两个阶段的实验。在第一阶段,我们研究在严格数据限制下从头训练的小型模型的行为。这些模型在一个刻意限制为前哥白尼天文材料的历史语料库上训练,该语料库已通过过滤和预处理移除了显式的日心说参考。在第二阶段,我们使用一个大型预训练模型,通过参数高效微调的方式在同一天文语料库上进行适应。这两个互补的环境使我们能够分别探究在受限训练下的局部概念重组,以及大型预训练模型中的解释框架选择。 在受到严格约束的第一阶段环境中,尽管微调语料库中缺乏显式的日心说材料,较小的模型偶尔仍会生成局部的“地球运动”或日心说续写。然而,这些输出在全局上不稳定,不足以支持关于持续概念推理或连贯宇宙学模型构建的强有力论断。相反,大多数续写内容是由模糊或态度不明确的前现代天文学语言构成,缺乏稳定的宇宙学立场。在两个阶段中,我们都发现,在前哥白尼天文学语料库上的微调并未直接引发向地心说立场的转变。其主要效应是导致了解释和语言模式的重新分布,而宇宙学立场在这些模式下则保持相对稳定。特别是,大型预训练模型在微调之前已经包含了潜在的历史天文学续写方式,而领域适应改变了进入这些解释流形的概率,地心说立场的增加是增加对该前现代区域采样而产生的次要结果。总体而言,这些实验表明,解释框架和宇宙学立场是语言模型生成中部分可分离的维度,并且领域适应可以改变在已有概念空间内进入不同语言解释模式的概率。本工作并非将生成的立场视为单一输出变量,而是将生成行为分解为解释框架的选择和条件性立场的表达。 ## 2 实验设计 ### 2.1 第一阶段:小型模型训练 在第一阶段,我们训练一个1.1亿参数的GPT模型。首先在过滤后的通用语料库(去除天文内容)上训练,然后在较小的前哥白尼天文学语料库上进行微调。使用通用语料库的目的是提供广泛的英语句法、词汇和话语结构接触,同时最小化对现代天文概念的直接接触。该通用语料库从古腾堡计划档案[7]中构建,通过基于元数据的过滤选择了总计2851份文档,以排除明确与天文学或科学相关的文本。由于完全使用中世纪或前现代文本构建足够大的训练语料库在公开资源中不可行,通用语料库也包含了相对近代的文学和历史作品。然而,仅靠元数据过滤不足以确保移除现代天文学知识。例如,其他不相关的文本仍可能包含对日心说、行星运动或现代宇宙学的引用。为减少这种污染,对选定的文档进一步应用了基于关键词和模式的过滤处理,旨在移除涉及地球轨道、日心说、哥白尼、伽利略及相关的现代天文学概念的段落,同时保留文学、哲学和历史中的通用语言结构和非天文学内容。虽然无法保证完全移除所有间接天文引用,但过滤程序显著减少了模型对日心说概念和现代天文学解释的显式暴露。 由于公开可用的前哥白尼文本的英译本数量有限,天文语料库远小于通用语料库。该语料库汇集了包含地心说天文学推理、宇宙学讨论和前现代自然哲学的古典、晚期古代和中世纪著作。代表性文本包括萨克罗博斯科的《天球论》、托勒密的《天文学大成》、柏拉图的《蒂迈欧篇》、亚里士多德的《论天》、克娄米德的《论诸天》和皮尔巴赫的《行星新理论》。部分著作是明确的天文学著作,另一些则将地心说宇宙学嵌入更广泛的哲学或神学讨论中。完整列表见附录A。由于许多现代译本包含涉及当代天文学的编辑按语、注释或脚注,我们对天文语料库应用了相同的基于模式的过滤程序,以移除译者评论和其他潜在的现代天文学泄漏源。 清理后的语料库使用字节级BPE分词器进行分词,词汇表大小为32,000,该分词器是在合并后的通用语料库和天文语料库上训练的。添加了四个特殊标记:、、和。文档被作为纯文本分词,并缓存为固定长度的流,用于后续的预训练和微调。 我们首先仅在过滤后的通用语料库上训练模型。这个过程产生了我们称之为“模型A”的模型。该模型是一个纯解码器的GPT风格Transformer,有12层、12个注意力头、嵌入维度768、上下文长度1024,对应约1.1亿参数。“模型B”从通用预训练检查点初始化,并在前哥白尼天文学文本和通用英语文本的混合语料上进行微调。每个微调批次以0.8/0.2的天文/通用混合比例采样,使模型能够适应天文语料库,同时保持通用语言流畅性。微调使用了与预训练相同的分词器、上下文长度和模型架构。训练进行了20,000次迭代,使用AdamW优化器,学习率为5×10⁻⁵,余弦退火至10⁻⁶,500步预热,批次大小为12,梯度累积4步。 ### 2.2 第二阶段:QLoRA适应 在第二阶段,我们使用QLoRA[1]在相同的前哥白尼天文学语料库上对Qwen2.5-7B[10]进行适应。Qwen2.5-7B是一个现代纯解码器大型语言模型,在广泛的多语言语料库上进行了预训练,与第一阶段使用的1.1亿模型相比,表现出更强的语言流畅性和推理稳定性。使用大型预训练模型引入了一个重要的权衡。虽然预训练模型提供了强大且高度稳定的语言先验,但它也很可能包含了在大规模预训练期间获得的与现代天文学概念相关的潜在表示。在前哥白尼语料库上的微调可能会抑制或覆盖部分表示,但无法保证完全移除。因此,在解释生成输出时应考虑此限制。 基础Qwen模型以4位NF4量化(双重量化)加载,并使用LoRA适配器进行训练。我们使用了秩r=16,LoRA缩放系数α=32,dropout率为0.05,不进行偏置适应。适配器应用于注意力投影(q_proj, k_proj, v_proj, o_proj)和MLP投影(gate_proj, up_proj, down_proj)。文本文件按文档分割为训练集和验证集(验证集比例0.05),然后进行分词并分块为长度512的因果语言建模序列。我们训练了两个适配器,一个训练500步,另一个训练1000步,使用每设备批次大小1,梯度累积16步,学习率2×10⁻⁴,预热比例0.03,fp16精度,梯度检查点,最大梯度范数0.3,以及分页AdamW 8位优化器。我们将这些模型分别称为“QLoRA-500”和“QLoRA-1000”。 ### 2.3 基于LLM的评判器 在两个阶段中,我们评估了五个模型:来自第一阶段的模型A和模型B,以及来自第二阶段的Base Qwen、QLoRA-500和QLoRA-1000模型。生成的输出使用一个“LLM作为评判器”的框架进行评估,在该框架中,另一个语言模型被提示分配描述宇宙学立场、解释框架、地球运动指涉和模糊性的结构化标签。这种方法遵循了近期的工作[5, 12],表明大型语言模型可以为开放式生成任务提供有用且可扩展的比较评估。所有生成的文本均使用Claude Haiku 4.5模型(claude-haiku-4-5-20251001)作为LLM评判器进行评估。由于小型模型的生成内容通常被截断、矛盾或部分不连贯,评估标准旨在检测局部语义信号,而非要求全局连贯的推理。评判模型分配结构化的标签,涵盖立场、解释框架和地球运动指涉。本研究使用的主要标签总结如下: - • **质量分数**:一个粗略的连贯性分数,范围0-2,0表示退化或无法解释的输出,1表示部分连贯但混乱或矛盾的天文学相关文本,2表示连贯且与提示相关的续写。 - • **提及地球运动**:一个低阈值的词汇信号,表明生成的续写内容明确提到了地球移动、旋转、公转或以其他方式拥有运动,无论周围的推理是否连贯。 - • **明确的地球运动**:一个更高置信度的标签,要求文本在局部明确断言地球移动或旋转,而不仅仅是假设性或修辞性地提出这种可能性。 - • **原日心说**:当文本实质性地展开或认真考虑将地球运动或日心解释作为一种可能时分配,即使推理不完整或内部不一致。 - • **地心说**:当文本明显倾向于静止或地心说宇宙学,且未触发地球运动标签时分配。 - • **模糊**:当天文内容存在,但无法自信地推断出稳定的宇宙学立场时分配。标签之间自动强制执行额外的一致性约束(例如,明确的地球运动意味着提及地球运动和原日心说立场)。完整的评估提示、评判脚本和分析代码可在项目仓库中找到:https://github.com/fdeberna/chat-ptolemaic。 第二阶段引入了额外的评估标签,旨在将宇宙学立场与解释框架及文体风格分离开。在初步分析中,我们清楚地看到,大型预训练模型可以生成强烈的前现代天文学语言,而不承诺于稳定的地心说立场,或者在同一续写中将不相容的现代和前现代解释系统结合起来。第二阶段使用的细化标签包括: - • **细化的地心说立场**:当续写内容明确支持以地球为中心或地球静止的宇宙学时分配。 - • **细化的日心说立场**:当续写内容明确支持地球运动或日心说排序时分配。 - • **细化的模糊立场**:当天文学相关内容存在,但无法自信地推断出稳定的宇宙学立场时分配。 - • **前现代解释框架**:当续写内容使用明确的前现代宇宙学或天文学机制(如天球、本轮、均轮、苍穹、水晶天,或历史性的地心说解释结构)来解释天文现象时分配。 - • **现代解释框架**:当续写内容使用现代日心说或轨道力学概念(如行星绕太阳运行或相对
相似文章
政治话语中大型语言模型的文化适应
本文探讨了在政治话语中使大型语言模型适应文化语境的方法,旨在增进跨文化理解并减少偏见。
世界模型与语言模型相遇:论具体推理与抽象推理的互补性
本文提出特权未来在策略自蒸馏(PF-OPSD)方法,用于受控具体推理,结合世界模型的视觉模拟与语言模型的抽象推理,在两个新基准上提升预测准确性和鲁棒性。
CosmicFish-HRM:通过紧凑语言模型中的层级循环机制实现自适应推理
本文介绍了 CosmicFish-HRM,这是一个紧凑的 8277 万参数语言模型,配备层级推理模块,在推理过程中动态分配推理计算资源,并根据输入复杂度学习何时停止。
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。
通过行为微调对语言模型中的病理样行为模式进行建模
本文介绍了一个行为诱导框架,通过在结构化决策任务上微调语言模型,以引发生成分布中稳定的、上下文无关的偏移,从而模拟抑郁和偏执等病理样行为模式。