提示级蒸馏:一种高效推理的非参数化模型微调替代方案
摘要
提示级蒸馏(PLD)从教师模型中提取推理模式,转化为结构化指令用于学生模型的系统提示,在不增加微调开销的情况下提升推理任务性能。
查看缓存全文
缓存时间: 2026/06/16 11:31
Paper page - Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning
Source: https://huggingface.co/papers/2602.21103
摘要
Prompt-Level Distillation 从教师模型中提取推理模式,以增强学生模型性能,同时保持可解释性并降低延迟。
高级推理通常需要 Chain-of-Thought prompting (https://huggingface.co/papers?q=Chain-of-Thought%20prompting),该方法准确但延迟过高且测试时推理成本巨大。标准的替代方案——fine-tuning (https://huggingface.co/papers?q=fine-tuning) 小模型,往往牺牲可解释性,同时引入大量资源和运营开销。为解决这些限制,我们引入了 Prompt-Level Distillation (https://huggingface.co/papers?q=Prompt-Level%20Distillation) (PLD)。我们从 Teacher model (https://huggingface.co/papers?q=Teacher%20model) 中提取显式推理模式,并将其组织成结构化指令列表,作为 Student model (https://huggingface.co/papers?q=Student%20model) 的 System Prompt (https://huggingface.co/papers?q=System%20Prompt)。使用 Gemma-3 4B 进行评估,PLD 将 StereoSet 上的 Macro F1 scores (https://huggingface.co/papers?q=Macro%20F1%20scores) 从 57% 提升至 90.0%,Contract-NLI 从 67% 提升至 83%,同时将 LogiQA (https://huggingface.co/papers?q=LogiQA) 准确率提升至 70%。在 Mistral Small 3.1 上的类似结果证明了 cross-architecture generalizability (https://huggingface.co/papers?q=cross-architecture%20generalizability),使这些紧凑型模型能够以极低的延迟开销媲美前沿性能。这些表达性指令使决策过程透明化,允许逻辑的完全人工验证,使其成为法律、金融和内容审核等受监管行业,以及高容量用例和边缘设备的理想选择。
View arXiv page (https://arxiv.org/abs/2602.21103)View PDF (https://arxiv.org/pdf/2602.21103)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2602.21103)
Get this paper in your agent:
hf papers read 2602\.21103
Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
Models citing this paper0
No model linking this paper
Cite arxiv.org/abs/2602.21103 in a model README.md to link it from this page.
Datasets citing this paper0
No dataset linking this paper
Cite arxiv.org/abs/2602.21103 in a dataset README.md to link it from this page.
Spaces citing this paper0
No Space linking this paper
Cite arxiv.org/abs/2602.21103 in a Space README.md to link it from this page.
Collections including this paper0
No Collection including this paper
Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.
相似文章
通过混合策略蒸馏进行推理压缩
本文提出了混合策略蒸馏(MPD),这是一个将大教师模型的简洁推理行为转移到更小规模的学生模型的框架,在提升性能的同时,将令牌(token)使用量最多降低了27.1%。
通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力
本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。
用于LLM推理的自适应教师暴露自蒸馏方法
自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。
授之以渔而非授之以鱼:面向多模态策略优化的特权引导式蒸馏
本文提出PTD-PO,一种特权引导式蒸馏框架,可在多模态推理任务中为基于可验证奖励的强化学习提供密集的token级监督,且不暴露答案。该框架利用结构化提示和Top-K JS散度目标以稳定训练,在2B-8B LVLMs上持续优于现有方法。
教师令牌何时可靠?基于位置加权的在线策略自蒸馏方法在推理中的应用
本文发现,推理蒸馏中教师令牌的可靠性具有轨迹结构特性,并提出了基于位置加权的在线策略自蒸馏方法(PW-OPSD),该方法通过应用递增的位置权重,在不增加教师计算量的情况下提升了性能。