基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用

arXiv cs.CL 论文

摘要

本文使用基于扰动的归因分析方法,分析了不同微调策略(全量微调、LoRA、量化LoRA)和模型规模对LLM在自动代码合规性任务中解释行为的影响。研究发现全量微调产生的归因模式比参数高效方法更集中,而较大的模型会形成特定的解释策略,但性能收益在超过7B参数后出现递减。

arXiv:2604.15589v1 公告类型:新论文 摘要:现有关于大型语言模型(LLM)在自动代码合规性检查中应用的研究主要关注性能,将模型视为黑箱,忽视了训练决策对其解释行为的影响。本文通过采用基于扰动的归因分析方法,比较LLM在不同微调策略(包括全量微调(FFT)、低秩适应(LoRA)和量化LoRA微调)以及不同模型规模(包括变化的LLM参数大小)下的解释行为。研究结果表明,全量微调产生的归因模式在统计上与参数高效微调方法不同,且更加集中。此外,随着模型规模的增加,LLM会形成特定的解释策略,如优先考虑建筑文本中的数值约束和规则标识符,但语义相似度性能增益在超过7B参数的模型中趋于平稳。本文提供了对这些模型可解释性的关键洞察,为在建筑、工程和建设行业这些关键的基于规范的任务中构建更透明的LLM迈出了一步。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:28

# 不同微调策略和模型规模下的 LLM 属性分析用于自动化代码合规性
来源:https://arxiv.org/abs/2604.15589
查看 PDF (https://arxiv.org/pdf/2604.15589)

> 摘要:关于大语言模型(LLM)在自动化代码合规性方面的现有研究主要关注性能,将模型视为黑箱,忽视了训练决策如何影响其解释行为。本文通过采用基于扰动的属性分析来填补这一空白,比较了 LLM 在不同微调策略(如全量微调(FFT)、低秩适配(LoRA)和量化 LoRA 微调)以及不同模型规模(包括不同 LLM 参数量)下的解释行为差异。研究结果表明,FFT 产生的属性模式在统计上与参数高效微调方法产生的属性模式不同,且更加聚焦。此外,我们发现随着模型规模增加,LLM 会开发特定的解释策略,例如优先考虑建筑文本中的数值约束和规则标识符,尽管对于超过 7B 参数的模型,生成的计算机可处理规则与参考规则的语义相似性能收益开始平台期。本文为这些模型的可解释性提供了重要见解,有助于为建筑、工程和建筑行业中基于法规的关键任务构建更加透明的 LLM。

## 提交历史

来自:Jack Wei Lun Shi [查看邮箱 (https://arxiv.org/show-email/0e4a9741/2604.15589)] **[v1]** 2026年4月16日 23:54:26 UTC (633 KB)

相似文章

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。