LLM中介的普适系统中的权威倒置:当模型信任用户胜过传感器
摘要
本文发现了LLM中介的普适系统中的“权威倒置”现象,即模型更倾向于信任自然语言形式的用户主张而非数值传感器数据。研究提出了几何审计指标(CIR、AAI)和一种推理时校准方法(GAC)来纠正这种偏差,显著提升了准确性。
arXiv:2605.23938v1 公告类型:新提交
摘要:大型语言模型(LLM)越来越多地融合普适系统中的异构输入。然而,当传感器测量值与用户主张冲突时,LLM如何隐式分配权威性尚未得到审视,这引发了在物理传感必须保持优先级的部署场景中的关键可靠性担忧。不同于显式的传统融合,LLM将权威分配隐藏在学到的表示中。我们发现这种分配严重依赖于格式:数值传感器数据无法集成到与答案相关的模型方向中,导致自然语言主张主导最终决策,我们将此现象称为\textbf{权威倒置}。为了诊断和缓解这一问题,我们开发了一个上下文集成的几何框架,引入了两个可计算的审计指标——具体为上下文集成比(CIR)和权威对齐指数(AAI),并提出了几何权威校准(GAC),一种推理时的层级干预方法,以压制误置的用户权威。在四个数据集(总计576个冲突实例)上评估四个模型(参数从4B到35B,三种架构)揭示了极端的倒置:在数值任务上,模型表现出近乎为零的传感器信任(AAI = -0.805,Cohen's d = -2.14),且不受模型容量影响。验证我们的几何框架,理论指导的因果注入翻转了80.2%的错误决策(随机控制下<0.4%)。在实践中,GAC将HAR准确率从0–1.6%提升至21.9–27.5%,优于提示基线。最终,LLM中介系统中的权威分配必须被显式审计并根据应用特定配置,而不是保持隐式。
查看缓存全文
缓存时间: 2026/05/26 09:00
# LLM中介的普适系统中的权威反转:当模型信任用户而非传感器 来源:https://arxiv.org/html/2605.23938 Long Zhang, Zi-bo Qin 华南理工大学计算机科学与工程学院 广州,中国 和 Wei-neng Chen 华南理工大学计算机科学与工程学院 广州,中国 [email protected] (https://arxiv.org/html/2605.23938v1/mailto:[email protected]) (2026) ###### 摘要 大语言模型(LLMs)在普适系统中越来越多地融合异构输入。然而,当传感器测量值与用户主张相冲突时,LLMs如何隐式分配权威仍未被研究,这在物理传感必须保持优先级的部署中引发了关键可靠性问题。与传统显式融合不同,LLMs将权威分配埋藏在学习到的表征中。我们发现这种分配严重依赖于格式:数值传感器数据无法集成到与答案相关的模型方向中,使得自然语言主张主导最终决策,我们将这种现象称为**权威反转**。为了诊断和缓解这一问题,我们开发了一个几何框架用于上下文整合,引入了两个可计算的审计指标——上下文整合比率(CIR)和权威对齐指数(AAI),并提出了几何权威校准(GAC),一种推理时的层级别干预,用于抑制错位的用户权威。评估了四个模型(4B到35B参数,三种架构)在四个数据集共计576个冲突实例上的表现,发现了极端的反转:在数值任务上,模型表现出近乎为零的传感器信任(AAI = -0.805,Cohen's d = -2.14),且不受模型容量影响。验证我们的几何框架,理论引导的因果注入翻转了80.2%的错误决策(随机控制组低于0.4%)。实际应用中,GAC将HAR准确率从0–1.6%提升至21.9–27.5%,优于提示基线。最终,LLM中介系统中的权威分配必须明确审计并根据应用具体配置,而非保持隐式。 权威反转,普适计算,大语言模型,传感器-用户冲突,机制可解释性,上下文感知系统 ††期刊:IMWUT ††版权:acmlicensed ††出版年份:2026 ††DOI:XXXXXXX.XXXXXXX ††版权:无 ††CCS:以人为中心的计算 → 普适和移动计算 ††CCS:计算方法 → 自然语言处理 ††CCS:计算方法 → 机器学习 ††CCS:以人为中心的计算 → 普适和移动设备 ## 1. 引言 考虑一个常见的普适计算场景:智能手表持续记录加速度计和陀螺仪信号,其运动模式强烈表明用户正在行走,但用户报告说“我正坐在办公桌前工作”。在LLM中介的上下文推理管道中,这两种证据可能会一并呈现以支持下游推理。当它们不一致时,模型实际上信任哪个来源?我们的实验揭示了一个显著模式:在多个模型家族和规模上,模型常常遵循用户的自然语言主张而忽略传感器证据,即使传感器测量在系统中本应具有更高的权威。 这个问题很重要,因为普适系统日益依赖大语言模型(LLMs)来中介异质信息源(Abowd et al., 1999),包括数值传感器流、事件日志、健康指标和用户自我报告(Xu et al., 2024; Ouyang and Srivastava, 2024; Kim et al., 2024)。普适计算的一个定义性特征正是这种多源上下文证据的持续融合。在传统上下文感知系统中,源之间的冲突通常通过显式机制处理,如置信度估计、概率融合或信任建模(Dey et al., 2001)。一旦LLMs被插入推理回路,权威分配就不再是显式设计的,而是成为模型学习表征和对齐行为的隐式属性。结果,系统可能看似结合了传感器和用户输入,而实际上赋予了它们高度不均且可能不适用于应用的权重。 在本文中,我们将这种行为识别为一种系统性故障模式,称为**权威反转**:在传感器-用户冲突下,模型对用户主张的有效决策权重大于对传感器支持信号的权重,导致物理依据的证据失去决定最终答案所需的影响力。重要的是,这并不是一个罕见的边缘案例。在跨越活动识别、智能家居感知和健康评估的四个模型和四个数据集上,我们发现当传感器证据以高维数值形式表达时,权威反转严重且高度系统性。在活动识别任务上,所有测试模型的传感器信任率近乎为零(88.8%–100%的用户信任),且从4B扩展到35B参数并不能消除问题。这些结果表明,故障不仅仅是模型容量不足的问题,而是传感器表征与模型决策过程之间更深层次的不兼容。 权威反转与NLP中研究的谄媚现象(sycophancy)相关(Perez et al., 2023; Wei et al., 2023),但不能简化为该问题的纯文本版本。在标准NLP设置中,冲突源通常都以自然语言表达。相比之下,在普适系统中,冲突根本上是跨格式的:传感器证据往往是数值的、高维的,且与词嵌入空间弱对齐,而用户主张作为流畅的自然语言到达,已经与模型的预训练机制良好匹配。这种表征不对称使得问题比普通的用户意见一致性更严重、更具操作性后果。因此,问题不仅仅是LLMs可能过度顺从,还在于它们可能系统地错误排序异质证据,从而违背上下文感知应用的预期权威结构。 为了研究这个问题,我们结合了受控冲突基准、诊断指标、表征级分析和推理时缓解。我们构建了涵盖活动识别、智能家居感知和健康评估的冲突设置,覆盖从原始数值传感器特征到语义可解释指标的梯度。在这些设置中,我们观察到一个一致的模式:传感器格式对LLM越不可解释,模型越倾向于听从用户。为了诊断这种行为,我们引入了两个可计算指标——上下文整合比率(CIR)和权威对齐指数(AAI)——它们量化了上下文源进入模型决策通道的效率以及冲突下权威的分配方式。为了解释其原因,我们基于超球面方向分析和预测-零空间分解,开发了残差流中上下文整合的几何解释。在此分析基础上,我们进一步提出了几何权威校准(GAC),一种推理时的缓解方法,可在用户主张与传感器证据冲突时提高鲁棒性。 我们的核心论点是:LLM中介的普适系统中的权威分配不应被视为提示词的无害副产品。它是一种隐式系统行为,当用户和传感器不一致时可能静默违反应用需求。在某些应用中,用户自我报告应保持优先;在其他应用中——尤其是那些依赖物理传感以确保安全、健康或环境感知的应用——传感器证据在冲突下应维持足够的影响力。将这种分配隐式地置于LLM内部,会掩盖系统实际行为是否符合设计师意图的问题。通过识别、解释和缓解权威反转,本文主张为LLM中介的普适系统中处理分歧建立更明确、可审计且与应用相关的机制。 本文的贡献如下: - **LLM中介的普适系统中的一种故障模式**。我们识别了权威反转——一种LLMs信任用户主张而非冲突传感器证据的系统性行为——并显示它可能静默违反上下文感知应用的预期权威结构。 - **跨领域的经验证据**。在四个模型(4B–35B)和四个数据集(涵盖活动识别、智能家居感知和健康评估)上,我们展示了权威反转在数值传感器格式下的严重性(传感器信任≈0%,AAI = -0.805,Cohen's d = -2.14),随着传感器表征变得更语义可解释而减弱,并且在我们测试的模型中从4B扩展到35B并未解决。 - **隐式权威分配的诊断框架**。我们引入两个可计算指标——上下文整合比率(CIR)和权威对齐指数(AAI)——量化不同上下文源进入模型决策通道的效率,支持部署前的权威分配审计。 - **一种机制解释**。我们基于超球面方向分析开发了上下文整合的几何解释,显示数值传感器扰动几乎完全投影到表征零空间中(CIR_s ≈ 0.03–0.08)。理论引导的因果注入以80.2%的比率翻转了错误决策(随机控制组低于0.4%),验证了解释。 - **一种推理时缓解方法**。我们提出几何权威校准(GAC),一种推理时的层级别干预,将HAR准确率从0–1.6%提升至21.9–27.5%,优于思维链提示和语义翻译基线。 ## 2. 相关工作 ### 2.1. 普适计算中的LLMs LLMs在普适计算中的应用正在快速扩展。一系列近期研究探索了使用LLMs进行活动识别(Ji et al., 2024)和健康监测(Kim et al., 2024)。这些以LLM为中心的工作建立在早期传统普适计算研究的基础上,包括智能家居推理(Rashidi and Cook, 2009)和基于传感器的上下文感知计算(Chen et al., 2021)。这些工作共享一个共同模式:将传感器数据——通常是数值时间序列——转换为文本化提示,以供LLM推理或分类。例如,Xu等人(Xu et al., 2024)将物理传感器信号以文本形式嵌入提示中,利用LLM推理能力进行环境感知;Ji等人(Ji et al., 2024)探索了LLMs在零样本活动识别中的潜力。尽管近期的2025年架构如SensorLM(Zhang et al., 2025)和通用表征模型(Wei et al., 2025)试图通过训练专门的视觉变换器编码器或利用LLM辅助的跨数据集表征来处理连续可穿戴数据,但这些系统主要研究LLM在单源条件下的推理,较少关注多源信息冲突下的行为。随着普适计算从简单的活动分类向使用长期被动感知的开放式意义构建演变,如近期框架GLOSS(Choube et al., 2025)和人机协同意义构建系统(Li et al., 2025)所示,处理多源推理成为基本需求。然而,在实际普适计算部署中,传感器数据与用户自我报告之间的不一致是常态而非例外——用户可能因记忆偏差、社会期望或隐私担忧而提供与传感器记录不一致的信息(Althubaiti, 2016)。实际上,精确系统感知与用户隐私之间的张力是智能和分布式计算范式中公认的挑战(Zhao et al., 2024)。本文关注LLM在此类冲突场景下的决策行为。 ### 2.2. 自我报告与传感数据的分歧 用户自我报告与传感器测量之间的分歧是普适计算中长期关注的问题。在健康与保健监测中,研究已记录了加速度计测量的身体活动与自我报告运动之间的系统性差异(Althubaiti, 2016),以及睡眠追踪器数据与主观睡眠质量评分之间的差异(Landry et al., 2015)。在生态瞬时评估中,参与者的实时报告经常与被动感知的行为指标相偏离(Shiffman et al., 2008)。先前的工作主要关注*检测*此类差异并通过统计模型或临床医生评审进行调和。我们的工作回答了一个不同的问题:当LLM被任务要求同时推理两个来源时,它如何*隐式解决*分歧?我们表明,这种解决并非中立的——它由输入格式系统性偏向,且在没有内部表征分析的情况下对系统设计师不可见。 ### 2.3. 信息冲突与可信度评估 处理信息冲突是上下文感知计算中的一个经典问题。传统方法通常采用显式可信度建模:Dempster-Shafer证据理论(Shafer, 1976)、贝叶斯融合框架(Khaleghi et al., 2013)或基于信任的加权方案(Jøsang et al., 2007)都为在多源信息不一致时做出判断提供了结构化方法。这些方法的一个共同特点是,信息源权重可以由工程师显式设置或通过数据驱动方法学习。当LLMs作为推理引擎时,权重分配从显式设计转向隐式涌现。模型在预训练过程中如何对不同信息格式形成处理偏好,以及对齐训练如何影响这些偏好,在普适计算背景下仍未充分研究。本文旨在填补这一空白。 ### 2.4. LLM谄媚与忠实性 在NLP文献中,研究者已注意到LLMs表现出一种谄媚倾向——当用户表达某些观点或偏好时,模型倾向于同意,而不是维持客观正确答案(Perez et al., 2023; Wei et al., 2023)。Perez等人(Perez et al., 2023)在用户对长篇文本表达观点时,模型往往顺从用户的观点,无论其正确性如何。我们研究的权威反转与此相关但有所区别:在普适计算中,冲突发生在异构格式之间,传感器信号通常以数值形式出现,而用户主张是自然语言。这种格式差异使得模型天生偏向自然语言输入,导致一种比纯文本谄媚更严重且更不可预测的权威错位。我们将在第4节中经验性地展示这种差异。 *注意:由于对话长度限制,部分后续章节(如第3节方法、第4节实验、第5节讨论等)的翻译已被截断。如需完整翻译,请提供完整原文。*
相似文章
LLM代理中的忠实不确定性:实践中校准与效用权衡
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。
信任却未验证:大型语言模型来源评估中的认知盲区
这篇论文识别了大型语言模型(LLM)中的一个失败模式:在综合多个来源时,模型不会验证数值统计的有效性,而是依赖分析严谨性的文体标记。作者将此称为“认知对齐”(epistemic alignment),并表明该现象在多个模型和领域中持续存在,且抵制基于提示的缓解措施。
社交互动代理中的信任校准:基于大语言模型的性别化多模态行为生成研究
本文研究了使用大语言模型生成多模态行为(语言、声音、手势、面部表情)以校准社交互动代理中的信任。研究发现,虽然大语言模型能够生成与预期可信赖特征一致的行为,但也会再现社会性别刻板印象。
迈向可安全审计的大模型智能体:一种统一的图表示方法
本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。
AI 安全的 geopolitics:区域大语言模型偏差的因果分析
本文引入了一个概率图模型框架,以因果方式审核大语言模型(LLM)的安全机制,揭示出由于忽视了语境的毒性,标准的观测指标高估了人口统计学偏差。