大语言模型的维度级意图保真度评估:来自结构化提示消融的证据
摘要
本文介绍了一种使用结构化提示消融来测量大语言模型意图保真度的维度级评估方法。
arXiv:2605.14517v1 公告类型:新
摘要:整体评估分数捕捉了输出的整体质量,但无法区分模型是再现了用户请求的结构形式,还是保留了用户的特定意图。我们提出了一种维度级意图保真度评估框架,通过一项结构化提示消融研究,覆盖了三种语言、三个任务领域和六个大语言模型的2,880个输出,分别测量每个语义维度的结构恢复和意图保真度。该框架揭示了一个系统性的结构-保真度分裂:在具有完整配对分数的中文语言输出中,25.7%获得了完美的整体对齐分数(GA=5),同时表现出可测量的维度意图缺陷;而在英文语言输出中,这一比例上升至58.6%。人工评估证实,这些分裂区域输出代表了真正的质量缺陷,并且维度保真度分数比整体分数更可靠地追踪了人类判断。对2,520个消融细胞进行的公共-私有分解描述了模型何时成功补偿缺失意图以及何时失败,而代理标注则区分了先验可推断性与默认可恢复性。一项权重扰动实验表明,中等程度的不对齐通常被吸收,而严重的维度反转则始终有害。这些发现表明,在评估大语言模型针对用户特定任务的输出时,维度级意图保真度评估是整体评估的必要补充。
查看缓存全文
缓存时间: 2026/05/15 06:22
# 大语言模型维度级意图保真度评估:来自结构化提示消融实验的证据 来源:https://arxiv.org/abs/2605.14517 参考文献工具 ## 参考文献与引用工具 文献浏览工具 代码、数据与媒体 ## 本文相关的代码、数据与媒体 演示 ## 演示 相关论文 ## 推荐与搜索工具 关于arXivLabs ## arXivLabs:与社区合作者的实验项目 arXivLabs 是一个框架,允许合作者直接在网站上开发和分享 arXiv 的新功能。 与 arXivLabs 合作的个人和组织都接受并认同我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于践行这些价值观,并仅与遵循这些价值观的合作伙伴合作。 有一个能为 arXiv 社区增添价值的项目想法吗?**了解更多关于 arXivLabs 的信息**(https://info.arxiv.org/labs/index.html)。
相似文章
IntentGrasp:意图理解的综合基准测试
本文引入了 IntentGrasp,这是一个用于评估大型语言模型意图理解能力的综合基准测试,揭示了 20 个测试模型表现不佳的问题。论文提出了有意图微调(Intentional Fine-Tuning, IFT)作为解决方案,该方法显著提升了模型性能,并展现出强大的跨领域泛化能力。
大型语言模型的非线性干预
本文提出了一种大型语言模型非线性干预的通用公式,超越了线性表示假说,能够操控沿非线性流形编码的特征,并通过拒绝规避引导验证了该方法。
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。
论大语言模型的固有可解释性:设计原则和架构调查
一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。
分解大语言模型的基本能力:在多任务指令微调中缓解跨任务干扰
本文提出Badit方法,将大语言模型参数分解为正交的高奇异值LoRA专家,以在多任务指令微调中缓解跨任务干扰。