StoicLLM:小语言模型中基于哲学对齐的偏好优化
摘要
本研究探讨了在Llama-3.2-3B和Qwen-3-4B等小型语言模型上使用偏好优化方法(ORPO、AlphaPO),通过微小数据集使其与斯多葛哲学对齐。研究发现,尽管300个样本可以有效编码斯多葛美德,但小型模型在处理外向型的宇宙公民义务时仍面临困难。
arXiv:2605.11483v1 公告类型:新论文
摘要:虽然大型语言模型在事实性适应方面表现出色,但它们在数据严重受限的情况下内化细微哲学框架的能力仍鲜少被研究。我们通过在基础斯多葛文本的微数据集上专门优化小型LLM来研究这一问题,使用偏好优化方法(ORPO、AlphaPO)。通过多模型评论库进行评估,我们的结果表明,仅需300个高保真示例即可诱导与内向型斯多葛美德的强烈对齐,接近少样本提示的效果,同时释放上下文窗口空间。然而,关键的是,所有模型(包括少样本基线)在斯多葛哲学的外向型宇宙公民义务方面表现出持续的失败,这指向了小模型表示能力的局限性,这是仅靠微数据集适应无法克服的。
查看缓存全文
缓存时间: 2026/05/13 06:13
# StoicLLM:小语言模型中哲学对齐的偏好优化 **来源**: https://arxiv.org/html/2605.11483 **Ishmam Khan** Tufts University [email protected] **Sindhuja Thogarrati** Bose Corporation [email protected] **Shuo Zhang** Tufts University [email protected] ###### 摘要 虽然大型语言模型在事实适应方面表现出色,但它们在极端数据约束下内化细微哲学框架的能力仍有待探索。我们通过在基础斯多葛文本的微型数据集上专门化小语言模型,利用偏好优化(ORPO, AlphaPO)来研究这一问题。通过多模型评判员银行进行评估,我们的结果显示,仅300个高保真示例即可诱导模型强烈对齐面向内在的斯多葛美德,其性能接近少样本提示,同时释放了上下文窗口。然而,关键的是,所有模型(包括少样本基线)在斯多葛主义面向外在的宇宙公民义务方面均表现出持续性失败,这表明小模型存在表征局限性,仅靠微型数据集适配无法克服。 StoicLLM:小语言模型中哲学对齐的偏好优化 Ishmam Khan | Tufts University | [email protected] Sindhuja Thogarrati | Bose Corporation | [email protected] Shuo Zhang | Tufts University | [email protected] ## 1 引言 斯多葛主义由基提翁的第欧根尼于公元前300年左右创立,后通过塞涅卡、爱比克泰德和马可·奥勒留等思想家在其罗马时期蓬勃发展。斯多葛主义认为,美德——智慧、正义、勇气和节制——是唯一的真正善。这一古希腊哲学教导人们,人类繁荣(eudaimonia)是通过理性和道德品格而非外在环境实现的 Duran et al. (2023) (https://arxiv.org/html/2605.11483#bib.bib10)。由于现存的斯多葛文献在体积上高度受限但在哲学上内容丰富,它为考察高质量小数据集如何影响训练后适应提供了一个独特的基线。 在本文中,我们通过专门化两种能力较强的“小”语言模型——Llama-3.2-3B-Instruct 和 Qwen-3-4B-Instruct,来探索极端数据约束下的领域适应。我们使用多模型“LLM-as-a-judge”(以语言模型为评判员)委员会评估其哲学对齐情况。我们的研究结果转移了微型数据集适应的关注点:我们证明,仅需300个高保真示例即可将复杂人格的语气和教义标记编码到模型权重中,其性能接近少样本提示的性能上限,同时释放上下文窗口。此外,我们揭示出现代偏好优化器(ORPO vs. AlphaPO)的有效性似乎取决于基础模型的潜在能力,并发现了即使在少样本基线中也存在的、关于斯多葛主义面向外在的社会义务的持续性盲点,这表明这是小模型的表征局限性,而非适配方法特有的缺陷。 ## 2 相关工作 定制语言模型越来越多地被应用于高需求、事实性领域。例如,Yue et al., 2023 (https://arxiv.org/html/2605.11483#bib.bib1) 微调了一种用于特定国家法律检索的语言模型。虽然传统对齐通常需要数千个标注的偏好对以防止过拟合,但在高度 curated(精心策划)、具体的数据上进行训练,与依赖未策划的来源相比,可以减轻偏差 Sudalairaj et al. (2024) (https://arxiv.org/html/2605.11483#bib.bib4)。 评估这些专门的定性模型带来了其自身的挑战。传统的 n-gram 指标(如 BLEU、ROUGE)在复杂的生成任务上与人类判断的相关性较差 Reiter (2018) (https://arxiv.org/html/2605.11483#bib.bib20),而专家人工评估依然缓慢且昂贵。为了解决这个问题,使用前沿语言模型作为自动评判员已成为一种强大的替代方案。在结构化评分标准指导下,这些“LLM-as-a-judge”框架提供了细致、可扩展的评估,与人类偏好高度一致 Gu et al. (2025) (https://arxiv.org/html/2605.11483#bib.bib11)。 ## 3 方法论 ### 3.1 LLM 模型微调 为了在数据受限的条件下进行领域适应,我们微调了 Llama3.2-3B-Instruct^[1](https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct) 和 Qwen3-4B^[2](https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507)。我们使用权重分解低秩适应(DoRA) Liu et al. (2024) (https://arxiv.org/html/2605.11483#bib.bib8),而非标准的 LoRA Hu et al. (2021) (https://arxiv.org/html/2605.11483#bib.bib15)。标准 LoRA 将幅度和方向权重更新耦合在一起,这可能会无意中限制学习能力。DoRA 通过仅对方向分量应用低秩适应,同时独立训练幅度向量,从而解耦了这两者 Xue et al. (2023) (https://arxiv.org/html/2605.11483#bib.bib7)。这更紧密地模仿了全量微调的学习轨迹,并降低了上下文丢失的风险。 我们比较了两种单体偏好优化方法:优势比偏好优化(ORPO) Hong et al. (2024) (https://arxiv.org/html/2605.11483#bib.bib5) 和 Alpha 偏好优化(AlphaPO) Gupta et al. (2025) (https://arxiv.org/html/2605.11483#bib.bib6)。ORPO 通过在被拒绝生成的对比优势比惩罚旁应用标准负对数似然损失,绕过了传统的多阶段对齐管道: $$ \mathcal{L}_{\mathrm{ORPO}} = \mathbb{E}_{(x,y_w,y_l)} \left[ \mathcal{L}_{\mathrm{SFT}} - \lambda \log \sigma \left( \log \frac{\mathrm{odds}_\theta(y_w|x)}{\mathrm{odds}_\theta(y_l|x)} \right) \right] $$ 其中 $\mathrm{odds}_\theta$ 是词元级别的生成优势,$y_w, y_l$ 分别是被选中(chosen)和被拒绝(rejected)的响应。 AlphaPO Gupta et al. (2025) (https://arxiv.org/html/2605.11483#bib.bib6) 通过用可调的奖励塑造参数 $\alpha$ 替换固定形式的目标,扩展了这一框架: $$ \mathcal{L}_{\mathrm{AlphaPO}} = -\mathbb{E}_{(\mathbf{x},\mathbf{y}_w,\mathbf{y}_l) \sim \mathcal{D}} \left[ \log \sigma \left( -\frac{\beta}{\alpha} \pi_{\bm{\theta}}(\mathbf{y}_w|\mathbf{x})^{-\frac{\alpha}{\|\mathbf{y}_w\|}} + \frac{\beta}{\alpha} \pi_{\bm{\theta}}(\mathbf{y}_l|\mathbf{x})^{-\frac{\alpha}{\|\mathbf{y}_l\|}} - \gamma \right) \right] $$ 在此,$\alpha$ 缩放隐式奖励信号的敏感度。较低的值会放大奖励对比以实现更敏锐的区分,而较高的值则强制更保守的策略更新。 最后,我们使用预热-稳定-衰减(WSD) Wen et al. (2024) (https://arxiv.org/html/2605.11483#bib.bib19) 学习率调度和 StableAdamW Wortsmann et al. (2023) (https://arxiv.org/html/2605.11483#bib.bib18) 优化器来稳定训练。WSD 调度器 Hu et al. (2024) (https://arxiv.org/html/2605.11483#bib.bib17) 利用延长的稳定峰值阶段(通常占训练的80%),随后是快速的线性衰减,允许模型在沉入最优盆地之前有效地逃离局部最小值。由于 DoRA 的解耦更新偶尔会触发幅度峰值,我们将此调度与 StableAdamW 配对。其 AdaFactor 风格的更新裁剪防止了参数级别的梯度爆炸,而不过度截断全局梯度范数,确保在我们各种数据集大小下稳健收敛。 ### 3.2 评估策略 我们使用多模型 LLM-as-a-judge 框架 Gu et al. (2025) (https://arxiv.org/html/2605.11483#bib.bib11),在包含100个开放式问题的标准集上评估基础和微调模型。为了隔离适配方法的影响,所有模型共享相同的系统提示(“成为一位斯多葛哲学家。”),除了包含上下文示例的少样本基线。我们的评估比较了两种基础架构(Llama 3 和 Qwen 3)在几种实验条件下的表现:零样本基线、少样本基线,以及在不同大小(100、200 和 300个示例)数据集上通过 ORPO 和 AlphaPO 微调的模型。 为了评估响应质量,我们使用了一个由三个前沿模型组成的评判员银行:Claude Sonnet 4.6^[3](https://www.anthropic.com/news/claude-sonnet-4-6)、Gemini 3 Flash Preview^[4](https://ai.google.dev/gemini-api/docs/models/gemini-3-flash-preview) 和 GPT-5.4^[5](https://developers.openai.com/api/docs/models/gpt-5.4)。每位评判员根据结构化评分标准(详见第3.3节)评估生成的响应,以分配量化分数。 为了确保稳健性并考虑 LLM 评判员固有的随机性,我们对每个响应查询每位评判员三次。这种重复测量设计使我们能够计算并报告几个关键指标:具有95%置信区间的整体模型排名(源自均值的标准误)、评判员内一致性(通过单个评判员多次运行的分数标准差测量),以及评判员间一致性(使用 Kendall's Tau-b 评估以考虑序数排名并列)。最后,我们使用非参数 Wilcoxon 符号秩检验来确定表现最佳模型与其同行之间性能差异的统计显著性。 ### 3.3 评分标准生成 为给评判员银行提供可靠且标准化的评估标准,我们开发了一套结构化评分标准。我们利用 Claude Opus 4.6^[6](https://www.anthropic.com/claude/opus) 进行评分标准生成,因为前沿闭源模型在定义细微标准方面已展现出强大能力 Siro et al. (2026) (https://arxiv.org/html/2605.11483#bib.bib9)。我们通过向模型提供斯坦福哲学百科全书中关于“斯多葛主义”的条目 Duran et al. (2023) (https://arxiv.org/html/2605.11483#bib.bib10) 来奠定生成过程的基础。生成的评分标准由作者手动审查和编辑,以确保覆盖面向内在的美德和面向外在的教义维度。 生成的评分标准在两个主要维度上评估响应:哲学内容(包含六个标准,如“激情掌控”和“理性自我治理”)和经典斯多葛语气(包含两个评估概念框架和风格与塞涅卡或爱比克泰德等人物相似程度的标准)。评判员对八个标准中的每一个在1到5的离散量表上打分,每个响应的总可能得分范围为8到40。这些标准操作化了响应体现斯多葛哲学对齐的程度。得分为1表示完全缺失或主动违背斯多葛原则,而5则表示在教义上一致、强调且以斯多葛思想为中心的响应。 ## 4 实验设置 ### 4.1 数据集 塞涅卡的《致路奇里乌斯的道德书简》 Seneca (2021) (https://arxiv.org/html/2605.11483#bib.bib12)(由 Margaret Graver 和 A.A. Long 从拉丁语翻译)以及爱比克泰德的《全集:手册、演讲和片段》 Epictetus (2022) (https://arxiv.org/html/2605.11483#bib.bib13)(由 Robin Waterfield 从希腊语翻译)作为本研究的主要语料库。两者均由芝加哥大学出版社出版的学术翻译,面向受过教育的普通读者。这些文本共同代表了罗马斯多葛思想的主要幸存表达 Duran et al. (2023) (https://arxiv.org/html/2605.11483#bib.bib10)。 #### 4.1.1 训练数据集 训练数据集是从这些源文本生成的,最初结构化为特定格式。处理原始 PDF 始于使用本地 Qwen3-VL 实例^[7](https://github.com/QwenLM/Qwen3-VL) 转录每一页。然后,我们通过移除页级伪影(如行号)并解决连字符问题,启发式地合并这些转录文本。清理后的文本随后根据中心主题划分为不同的章节。为了解决任何剩余的 OCR 间距和标点符号问题,我们使用了 Claude 4.5 Sonnet^[8](https://www.anthropic.com/news/claude-sonnet-4-5),指示其保留原始词汇,并对照源 PDF 抽查输出。 从这些精炼的文本中,我们通过提示 Claude 4.5 Sonnet 生成与真实斯多葛段落逻辑映射的英文用户问题,从而生成指令微调数据。为了提供用于对比学习的负例,我们将这些问题传递给 Qwen3-4B-Instruct 和 Llama3.2-3B-Instruct 以生成合成的、非真实的响应。结合两本书的材料,我们生成了三个不同大小的指令微调数据集:V100、V200 和 V300,分别包含 100、200 和 300 行。 #### 4.1.2 评估数据集 评估数据集由100个当代开放式问题组成,旨在引出反思性和推理性的响应。这些问题主要围绕“如何”、“为什么”和“能否”等疑问形式构建。我们使用 Claude 4.6 Opus 通过指令提示合成了这些查询,刻意排除纯粹的事实或科学话题,转而采用更契合斯多葛对话性质的开放式推理场景。构建自定义评估集是必要的,因为现有的问答基准主要集中在事实回忆和信息检索上,而非抽象推理。 ### 4.2 微调过程 我们在单个 NVIDIA H200 GPU 上使用 ORPO 和 AlphaPO 偏好优化算法微调模型,并通过 unsloth 库^[9](https://github.com/unslothai/unsloth) 加速。训练数据格式化为这些优化器所需的 $\langle \text{prompt, chosen, rejected} \rangle$ 三元组结构,系统提示设置为“成为一位斯多葛哲学家。”选中的响应对应源语料库中的真实段落,而被拒绝的响应是由 Qwen3 和 Llama3.2 模型产生的合成完成。 所有模型均使用 Hugging Face TRL 库^[10](https://huggingface.co/docs/trl/index) 中的 ORPOTrainer 和 CPOTrainer(修补了 Unsloth 的优化内核)训练了3个 epoch。我们使用 StableAdamW 优化器,学习率为 $1 \times 10^{-5}$,采用 WSD 调度,权重衰减为零。通过每设备批次大小为2和4个梯度累积步长,实现了有效批次大小为8。我们利用 bfloat16 混合精度训练并启用梯度检查点以最小化内存开销。 ## 5 结果与讨论 我们的多评判员小组表现出强烈的排名共识(Kendall's Tau-b: 0.739–0.768)。然而,绝对评分分布差异显著:Gemini 非常宽松(宏均值 29.29),GPT 中等(25.08),而 Claude Sonnet 严格(20.04),尽管 Sonnet 在重复测量中高度一致 ($\sigma=0.44$)。对这个多样化三元组的平均成功平滑了系统性的宽松偏见,同时保持了序数完整性,提供了稳健的性能信号。 如表1 (https://arxiv.org/html/2605.11483#S5.T1) 所示,Qwen-3-4B 在所有条件下均大幅优于 Llama-3.2-3B。值得注意的是,零样本 Qwen3 基线(27.79)超过了表现最佳
相似文章
LambdaPO: 面向推理语言模型的Lambda风格策略优化
引入LambdaPO,一种新颖的强化学习框架,它通过将优势估计分解为成对偏好比较并添加语义密度奖励来改进GRPO,从而在数学推理任务上取得了更好的性能。
传递性与循环性的相遇:面向动态大语言模型对齐的显式偏好分解
本文介绍了混合奖励循环(HRC)模型和动态自对弈偏好优化(DSPPO)方法,以解决大语言模型对齐中人类偏好的循环特性,在Bradley-Terry和通用偏好模型(GPM)基线上取得了更优的性能表现。
大语言模型中词汇对齐与偏好阶段转变的全自动识别
本文提出了两种自动化指标:词汇对齐分数(Lexical Alignment Score)和三角化偏好转变(Triangulated Preference Shift),用于识别大语言模型中的词汇过度使用,并将其归因于偏好学习阶段。该方法在六个模型家族上使用PubMed摘要进行测试,无需人工干预即可重复先前的研究发现。
通过偏好对齐优化增强多语言反事实生成
本文介绍了 Macro,一种使用 DPO 进行偏好对齐的框架,旨在提高跨多种语言自我生成反事实解释的有效性和最小性。
你的语言模型就是其自身的评论者:利用演员内部状态进行价值估计的强化学习
本文介绍了 POISE,一种通过利用模型自身内部状态来估计基线,从而在大型推理模型中实现稳定策略优化的方法,与 PPO 和 GRPO 相比,该方法降低了计算开销。