使用 Phi Silica 进行短文本重写

arXiv cs.CL 2026/06/02 04:00 论文

摘要

本文通过数据集整理、提示蒸馏和参数高效微调，对小型语言模型 Phi Silica 进行短文本重写的适配实证研究，结果表明针对性适配显著提升了语义保真度并减少了幻觉。

arXiv:2606.00462v1 公告类型：新摘要：短文本重写是释义的一种受限变体，其中有限的上下文和高度语义密集性使得变化空间极小。虽然大型语言模型在通用释义上表现良好，但小型语言模型（SLM）在短文本场景中往往难以保证语义保真度和幻觉鲁棒性。本文通过对 SLM Phi Silica 进行短文本重写的适配实证研究，涉及数据集整理、提示蒸馏、参数高效微调和评估。我们从公开幻灯片中整理了一个短演示文本数据集，并使用 GPT-5-chat 生成重写监督信号以及进行 LLM 作为评判者的评估。结果表明，微调提高了语义保真度，减少了幻觉，并提升了相对于 GPT-5-chat 重写的偏好胜率。研究提示，针对 SLM 的定向适配可大幅缩小与云端模型的差距，并为将 SLM 适配到精度关键的重写任务提供了实用指导。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:37

# 短文本改写与Phi Silica *††感谢：本工作已被IEEE ICAD接收发表。版权可能在此后转移，此版本可能不再可访问。
来源：https://arxiv.org/html/2606.00462

###### 摘要

短文本改写是释义的一种受限变体，其上下文有限且语义密度高，几乎没有变化的余地。大型语言模型在通用释义方面表现良好，但小型语言模型（SLMs）在短文本场景中往往在语义保真度和幻觉鲁棒性上存在困难。在本工作中，我们通过数据集策划、提示蒸馏、参数高效微调和评估，展示了一项关于将SLM——Phi Silica——适配于短文本改写的实证研究。我们从公开的幻灯片中策划了一个简短的演示风格文本数据集，并使用GPT-5-Chat来生成改写监督和进行LLM-as-a-judge评估。我们的结果表明，微调提高了语义保真度，减少了幻觉，并提高了相对于GPT-5-Chat改写的偏好胜率。这些发现表明，针对SLM的有目标适配可以显著缩小其与云端模型的差距，并为将SLM适配到对精度要求严苛的改写任务提供了实践指导。

## I. 引言

短文本改写——一种受约束的释义变体——由于上下文有限、语义密集以及对意义漂移的严格容忍度，给语言模型带来了独特的挑战。与长文本释义不同，短文本中细微的词汇替换或句法变化都可能导致意图的实质性改变，这使得语义保真度和自然流畅性尤为重要。

大型语言模型在释义和改写任务上展现了强大的性能，但其规模和成本促使人们关注在受限场景下使用更小的模型。然而，小型语言模型（SLMs）在没有针对性适配的情况下，在短文本改写方面通常表现不佳，常常出现语义漂移、字面化表达或生硬不自然的问题。

本文聚焦于一项研究：使用GPT-5-Chat作为高质量参考模型进行监督和评估，将SLM——Phi Silica——适配于短文本改写任务。

我们的贡献有三点。首先，我们策划了一个大规模的短文本演示数据集，并配以高质量的改写监督，旨在反映真实输入特征。其次，我们引入并评估了一个LLM-as-judge框架——使用GPT-5-Chat——通过多个标准以及成对比较来评估改写质量。第三，我们证明了与基线SLM相比，提示蒸馏结合LoRA微调显著提高了语义保真度、流畅性和抗幻觉能力，并提供了分析，为未来的数据集策划和评估选择提供参考。

## II. 相关工作

### II-A 面向高效生成的小型语言模型

小型语言模型（SLMs）的最新进展显著缩小了其与大型语言模型（LLMs）的性能差距，同时保持了较低的推理成本。因此，人们越来越关注识别SLM可以作为LLM高效替代方案的特定任务。

先前的工作表明，通过任务特定的监督，紧凑型模型可以在零样本提示大型生成模型方面表现更优，尤其是在受限或特定领域的环境中。Bucher 和 Martini (2024) 证明，微调后的较小模型在下游NLP任务上超越了零样本LLM，凸显了仅依赖提示适配的局限性 [1 (https://arxiv.org/html/2606.00462#bib.bib2)]。Gondara 等人 (2025) 进一步表明，当任务分布与预训练数据存在差异时，零样本LLM的性能会下降，而微调后的紧凑型模型则能保持更稳定的性能，这激励了对效率关键型任务进行监督适配 [2 (https://arxiv.org/html/2606.00462#bib.bib3)]。

### II-B 端上与短文本改写

近期工作开始明确研究在设备和上下文受限条件下的文本改写。Zhu 等人 (2023) 研究了面向短用户消息的端上文本改写，指出了由于有限算力、受限上下文、紧凑模型容量和严格语义要求所带来的挑战 [8 (https://arxiv.org/html/2606.00462#bib.bib5)]。作者提出使用指令微调和蒸馏策略来适配小型模型完成改写任务，并引入了**MessageRewriteEval**，一个面向短消息改写场景的人工标注基准。他们的结果表明，任务特定的适配显著提高了紧凑模型的语义保真度和流畅性，并且短文本环境中的改写质量与通用释义基准上的结果不同。这项工作直接证明了短文本改写是高效语言模型部署中一个独特且具有挑战性的场景。

更近期的工作进一步探索了小型语言模型在真实世界约束下的实际部署。Pham 等人 (2024) 引入了 **SlimLM**，这是一个针对端上文檔辅助任务（如摘要和生成建议）优化的SLM系列，并系统研究了在移动硬件上模型大小、上下文长度和推理延迟之间的权衡 [5 (https://arxiv.org/html/2606.00462#bib.bib4)]。他们的发现表明，当与任务特定的微调相结合时，紧凑型模型可以提供有竞争力的性能，同时实现低延迟、保护隐私的推理。虽然SlimLM专注于通用文档辅助，但我们的工作将短文本改写独立出来，视为一个对精度要求严苛的生成任务，即使微小的语义偏差也可能产生巨大影响，从而凸显了高效语言模型面临的一个互补但独特的挑战。

### II-C 释义质量评估

评估释义质量，特别是在受限改写条件下，仍然是一个挑战。基于参考的标准指标，如BLEU和ROUGE，主要捕捉词汇重叠，与人类对语义等价和流畅性的判断相关性较差。Shen 等人 (2022) 通过提出 Parascore（一个衡量语义保真度和词汇多样性的复合指标）解决了这一局限 [6 (https://arxiv.org/html/2606.00462#bib.bib6)]。语义感知评估与人类偏好更为一致，尤其是对于需要严格内容保留的释义任务。这些观察促使了评估协议超越表面相似性，用于短文本改写任务。

近期工作也考察了使用大型语言模型作为生成任务的自动评估器。Gu 等人 (2024) 全面综述了**LLM-as-a-judge**范式，分析了其在文本生成任务中的方法论、优势和失败模式 [3 (https://arxiv.org/html/2606.00462#bib.bib7)]。他们的研究表明，带有评分规则的LLM评判可以与人类判断有很好的相关性，但也指出了其对提示设计、输出长度和接近平局案例的敏感性——这些问题在短文本生成任务中尤为突出。

这些发现与我们实证观察结果一致，即使用小规模评估集或松散指定的标准时，短文本改写评估表现出方差。通过采用固定的、按长度分层的评估集和明确的基于LLM评判的评分规则，我们的工作遵循新兴的最佳实践，以减轻受限改写任务中无参考评估的不稳定性。

### II-D 参数高效微调

一些研究考察了释义生成的参数高效适配策略。Jayawardena 和 Yapa (2024) 引入了一种序列级知识蒸馏框架，用于释义任务，证明在模型大小减少数个数量级的情况下，紧凑的学生模型可以紧密匹配LLM教师的表现 [4 (https://arxiv.org/html/2606.00462#bib.bib8)]。诸如低秩适配（LoRA）等技术使得在更新最少参数的情况下实现高效微调，使小型语言模型成为语义精度、流畅性和抗幻觉能力至关重要的受限改写任务中有吸引力的候选方案。

## III. 方法

我们考虑短文本改写任务。给定一个输入文本片段，模型应生成一个改写版本，提高清晰度和流畅度，同时保留原始语义意图。改写必须避免幻觉、过度改写或意义的意外改变。由于短输入的合格改写高度受限，成功的生成需要始终如一地遵循输入含义，而不是追求风格创意。

因此，我们的方法论强调可控性和度量：训练数据经过策划以限制风格变化，提示经过蒸馏以降低对指令的敏感度，评估协议被设计用于揭示改写质量中细小但系统的差异。这种框架使我们能够评估改进是否源于学到的改写行为，而非提示伪影或评估方差。

### III-A 数据集

我们策劃了一个简短的演示风格文本数据集，从公开可用的幻灯片中采样。提取文本框并过滤掉空或接近空的片段。输入覆盖了多种长度，反映真实的演示使用情况：非常短（少于40个字符，6%）、短（40–100个字符，23%）、中等（100–400个字符，55%）、长（400–600个字符，12%）和非常长（600–1000个字符，3%）。每个输入都配有一个由GPT-5-Chat使用确定性解码（温度为0）生成的高质量改写，产生一种优先保留语义的保守参考风格。最终的微调数据集包含93k个改写对，用于监督Phi Silica的微调。

为了评估，我们构建了一个标准化的留出测试集，包含大约1000个文本框。该测试集独立于训练数据采样，并按输入长度分层，以反映真实使用场景和文本框长度。本工作中的所有定量结果均使用该固定评估集报告。

### III-B 模型

我们研究Phi Silica [7 (https://arxiv.org/html/2606.00462#bib.bib9)] 作为正在被适配的小型语言模型。Phi Silica是一个紧凑型语言模型（3.3B参数），专为在受限算力和内存预算下进行高效推理而设计。与大型云端语言模型相比，Phi Silica的参数数量显著减少，上下文容量降低，这放大了在短文本改写等精度关键型任务中对提示设计和数据质量的敏感性。

GPT-5-Chat被用作高质量的云端参考，用于生成改写监督，并通过LLM-as-judge评分和成对偏好比较来评估模型输出。GPT-5-Chat不被视为可部署的基线，仅用作改写质量的上限参考。

我们评估了Phi Silica的三个变体：基线预训练模型、LoRA微调的全精度（FP16）模型和LoRA微调的量化模型。

### III-C 提示设计与蒸馏

初步实验使用了从大型语言模型工作流改编而来的冗长、指令繁多的改写提示，包括详细的任务描述和许多用于释义的少样本示例。虽然对前沿模型有效，但这种方法显著降低了Phi Silica的性能，因为它过载了小型语言模型（SLM）有限的上下文容量，在数据生成和推理过程中引入了不必要的指令和示例开销。

为了解决这个问题，我们转向为数据生成设计一个更短、更聚焦于任务的改写提示，强调语义保留和简洁改写，同时去除多余的角色设定和过多的上下文示例。该提示作为构建微调过程中使用的高质量释义对的基础。

在微调之后，我们进一步蒸馏推理时使用的提示。通过在由更丰富的改写规范生成的数据上训练模型，模型内化了所需的改写行为，从而允许在推理时使用最少的提示，减少运行时开销。

### III-D 微调过程

我们使用应用于反量化基础检查点的LoRA适配器对Phi Silica进行微调。训练使用批大小4、学习率 $5 \times 10^{-5}$、LoRA秩32和dropout 0.3。应用早停法（耐心值为10），模型训练两个周期。在初步实验中，额外的周期带来的收益递减，并在某些情况下导致语义保真度下降，这表明短文本改写行为可以通过有限的监督适配有效学习。

在早期实验期间，我们观察到由于训练序列过长导致的训练损失尖峰和梯度爆炸。为了缓解这个问题，训练样本被限制在1000个字符以内。

### III-E 量化考虑

为了评估在降低数值精度下的鲁棒性，我们评估了微调模型的全精度和量化版本。微调在全精度下进行，之后将学习到的权重量化，无需额外训练。此分析测试微调收益在量化后是否持续存在；一致的表现表明学到的改进是稳定的，并且可以迁移到资源受限的下游环境中。

## IV. 实验结果与讨论

### IV-A 评估协议

我们使用GPT-5-Chat作为LLM-as-a-judge来评估改写质量。我们采用两种互补的评估协议：单独评分和成对比较。在单独评分设置中，评判者给每个改写输出分配维度特定的分数——涵盖语义相似性、幻觉、语气一致性、新颖性和多样性以及语法和流畅性。这些细粒度的信号提供了可解释的、绝对的评价，支持受控消融实验和跨实验条件的一致比较。同时，我们使用成对偏好判断，其中评判者比较两个候选改写并表达相对偏好，以比较形式捕捉细微的定性差异。总之，这两种评估视角为模型行为提供了相互强化的视角，将校准的绝对指标与稳健的相对比较相结合。

评估标准基于一项初步的结构化人工评估研究。人类评判者根据基于语言学的维度（如信息保留、自然度和简洁性）对候选改写进行评判。对该研究的分析揭示了感知上的边界：评判者通常容忍句法重排和词汇替换，但强烈惩罚事实内容的微妙变化、隐含意图的改变或引入无依据的推断。这些边界——人类直观上认为可接受的变体与意义扭曲之间的界限——直接影响了我们的微调目标和评估设计。

这项人在回路中的研究为校准我们的LLM-as-a-judge流程奠定了基础。我们迭代调整了LLM的评分规则和决策标准，以反映在一个手动标注的改写留出集上观察到的人类评判模式。这个过程确保了LLM评估器

使用 Phi Silica 进行短文本重写

相似文章

适合 <2000 token 的轻量级摘要小模型

微宏观检索：减少大型语言模型的长文本幻觉

HawkesLLM：智能体文本模拟中的语义不确定性传播

发现一个真正有效的人工智能人性化工具（亲自测试过）

切勿复制粘贴！代码检索的改写策略

提交意见反馈