基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用

arXiv cs.CL 2026/04/20 04:00 论文

llm-attribution fine-tuning code-compliance interpretability lora model-scaling

摘要

本文使用基于扰动的归因分析方法，分析了不同微调策略（全量微调、LoRA、量化LoRA）和模型规模对LLM在自动代码合规性任务中解释行为的影响。研究发现全量微调产生的归因模式比参数高效方法更集中，而较大的模型会形成特定的解释策略，但性能收益在超过7B参数后出现递减。

arXiv:2604.15589v1 公告类型：新论文摘要：现有关于大型语言模型(LLM)在自动代码合规性检查中应用的研究主要关注性能，将模型视为黑箱，忽视了训练决策对其解释行为的影响。本文通过采用基于扰动的归因分析方法，比较LLM在不同微调策略（包括全量微调(FFT)、低秩适应(LoRA)和量化LoRA微调）以及不同模型规模（包括变化的LLM参数大小）下的解释行为。研究结果表明，全量微调产生的归因模式在统计上与参数高效微调方法不同，且更加集中。此外，随着模型规模的增加，LLM会形成特定的解释策略，如优先考虑建筑文本中的数值约束和规则标识符，但语义相似度性能增益在超过7B参数的模型中趋于平稳。本文提供了对这些模型可解释性的关键洞察，为在建筑、工程和建设行业这些关键的基于规范的任务中构建更透明的LLM迈出了一步。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:28

# 不同微调策略和模型规模下的 LLM 属性分析用于自动化代码合规性
来源：https://arxiv.org/abs/2604.15589
查看 PDF (https://arxiv.org/pdf/2604.15589)

> 摘要：关于大语言模型（LLM）在自动化代码合规性方面的现有研究主要关注性能，将模型视为黑箱，忽视了训练决策如何影响其解释行为。本文通过采用基于扰动的属性分析来填补这一空白，比较了 LLM 在不同微调策略（如全量微调（FFT）、低秩适配（LoRA）和量化 LoRA 微调）以及不同模型规模（包括不同 LLM 参数量）下的解释行为差异。研究结果表明，FFT 产生的属性模式在统计上与参数高效微调方法产生的属性模式不同，且更加聚焦。此外，我们发现随着模型规模增加，LLM 会开发特定的解释策略，例如优先考虑建筑文本中的数值约束和规则标识符，尽管对于超过 7B 参数的模型，生成的计算机可处理规则与参考规则的语义相似性能收益开始平台期。本文为这些模型的可解释性提供了重要见解，有助于为建筑、工程和建筑行业中基于法规的关键任务构建更加透明的 LLM。

## 提交历史

来自：Jack Wei Lun Shi [查看邮箱 (https://arxiv.org/show-email/0e4a9741/2604.15589)] **[v1]** 2026年4月16日 23:54:26 UTC (633 KB)

基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用

相似文章

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

用 LLM 优化 LLM：面向测试时扩展的智能体发现方法

大语言模型不确定性中的人类对齐、校准与激活模式

通过探针目标微调，让LLM真正表达其自信程度。[研究]

独立研究：单个LLM会遗漏多模型面板捕获的约一半代码审查缺陷。欢迎反馈并寻求arXiv认可。

提交意见反馈