语言模型中基于单元的关系绑定表示

arXiv cs.CL 2026/04/22 04:00 论文

language-models relational-binding cell-based-representation neural-mechanisms arxiv

摘要

研究表明，大型语言模型通过“基于单元的绑定表示”（CBR）对篇章级关系绑定进行编码：一种低维线性子空间，每个“单元”对应实体-关系索引对，为模型如何追踪实体与关系提供了因果证据。

arXiv:2604.19052v1 公告类型: new 摘要：理解一段话语需要追踪实体及其相互关系。尽管大型语言模型（LLMs）在关系推理上表现良好，它们如何将实体、关系和属性绑定在一起的机制仍不清楚。我们研究了篇章级关系绑定，发现 LLMs 通过“基于单元的绑定表示”（CBR）对其进行编码：一个低维线性子空间，其中每个“单元”对应一个实体–关系索引对，推理时从对应单元检索已绑定的属性。利用带实体和关系索引标注的多句控制数据，我们通过偏最小二乘回归从属性 token 的激活中解码这些索引，从而识别 CBR 子空间。在跨领域和两种模型家族中，索引可被线性解码，并在投影空间呈现网格状几何结构。进一步发现，上下文相关的 CBR 表示在激活空间中通过平移向量相关联，实现跨上下文迁移。最后，激活修补实验表明，操控该子空间会系统性地改变关系预测，扰动它会破坏性能，为 LLMs 依赖 CBR 进行关系绑定提供了因果证据。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:30

# 语言模型中基于单元的关联绑定表征  
来源：https://arxiv.org/abs/2604.19052  
查看 PDF (https://arxiv.org/pdf/2604.19052)

> 摘要：理解一段语篇需要追踪实体及其之间的关联。尽管大语言模型（LLM）在关联推理上表现良好，它们如何将实体、关联和属性绑定在一起的机制仍不清楚。我们研究了语篇层面的关联绑定，发现 LLM 通过一种“基于单元的绑定表征”（CBR）来编码：一个低维线性子空间，其中每个“单元”对应一个实体—关联索引对，推理时从对应单元检索被绑定的属性。利用带实体与关联索引标注的多句受控数据，我们通过偏最小二乘回归从属性词元激活中解码这些索引，从而定位 CBR 子空间。在不同领域和两大模型家族中，索引可被线性解码，并在投影空间呈网格状几何排列。进一步发现，上下文特异的 CBR 表征在激活空间中通过平移向量相关联，实现跨上下文迁移。最后，激活修补实验表明，操控该子空间会系统性地改变关联预测，扰动该子空间则破坏性能，为 LLM 依赖 CBR 进行关联绑定提供了因果证据。

## 提交历史

来自：Qin Dai [查看邮件](https://arxiv.org/show-email/9cae4248/2604.19052) **\[v1\]** 2026 年 4 月 21 日（周二）03:58:47 UTC (16,089 KB)

相似文章

追踪大语言模型中的关系知识回忆

arXiv cs.CL

研究者通过探测每个注意力头的贡献，追踪大语言模型如何回忆关系事实，发现这些贡献是强线性特征，其保真度与关系特异性及实体连接度相关。

语言模型会梦见结合分子吗？在空间约束下对LLMs进行基准测试

Hugging Face Daily Papers

本文在3D空间约束下，将通用LLMs与专门的扩散模型进行对比基准测试，以生成结合分子。结果显示，尽管LLMs目前落后于最先进的方法，但它们展现出了潜力。

# 语音LLM推理中的实体绑定失败：诊断与思维链干预 ## 摘要大型语言模型（LLM）在多模态推理任务中表现出色，但当输入来自语音识别系统时，往往会出现一类特定的错误：实体绑定失败（Entity Binding Failure）。本文系统诊断了这一问题的成因，并提出了基于思维链（Chain-of-Thought, CoT）提示的干预策略。 --- ## 1. 引言语音转文本（ASR）系统与LLM的结合已成为对话式AI的核心架构。然而，ASR输出往往包含歧义性转录、同音词混淆以及命名实体识别错误，这些问题会在LLM推理阶段引发所谓的"实体绑定失败"——即模型无法正确地将语义角色与对话中的具体实体关联起来。典型场景包括： - 多说话人对话中的指代消解错误 - 数字、日期、人名的歧义转录 - 专有名词（产品名、地名）的同音替换 --- ## 2. 实体绑定失败的定义与分类 ### 2.1 定义实体绑定失败是指在推理过程中，模型将某一语义属性（如动作、状态、关系）错误地归属于上下文中的某个实体，而非其正确的指称对象。 ### 2.2 失败类型分类 | 类型 | 描述 | 示例 | |------|------|------| | 同音替换错误 | ASR将实体名替换为发音相似的词 | "苹果" → "平果" | | 指代歧义 | 代词无法确定性地解析到某一实体 | "他说他打了他" | | 跨句实体漂移 | 实体在多轮对话中被错误追踪 | 主语在换话轮后发生偏移 | | 数值实体混淆 | 数字、单位、日期被错误绑定 | "三点" = 时间 vs. 分数 | | 嵌套实体错误 | 复合实体中的成分被错误拆解或合并 | "北京大学医院" 的边界划定 | --- ## 3. 失败诊断方法 ### 3.1 对比探针测试（Contrastive Probing）通过构造最小对比对（minimal pairs）来定位绑定失败： ``` 输入A（正确转录）：张伟批评了李明，因为他迟到了。输入B（ASR转录）：张伟批评了黎明，因为他迟到了。 ``` 观察模型在两种输入下的实体归属判断是否一致，从而识别同音替换导致的绑定错误。 ### 3.2 注意力权重分析对Transformer架构中的交叉注意力权重进行可视化分析，检测模型在生成实体相关token时的注意力分布是否聚焦于正确的上下文位置。 ### 3.3 自动评估指标定义实体绑定准确率（Entity Binding Accuracy, EBA）： $$\text{EBA} = \frac{\text{正确绑定的实体-属性对数量}}{\text{总实体-属性对数量}}$$ --- ## 4. 思维链干预策略 ### 4.1 显式实体抽取CoT 在推理前，通过CoT提示引导模型首先显式列举并确认所有实体： ``` 提示模板： "在回答问题之前，请先： 1. 列出文本中出现的所有人名/地名/机构名 2. 标注每个实体的首次出现位置 3. 确认是否存在同音或相似的实体名 4. 在此基础上进行推理" ``` ### 4.2 渐进式消歧CoT 针对代词指代歧义，采用逐步消歧的思维链： ``` 步骤1：识别所有代词及其候选先行词步骤2：利用语境约束（性别、数量、语义角色）逐步排除候选步骤3：确定最终绑定关系步骤4：基于确定的绑定关系执行推理 ``` ### 4.3 不确定性感知CoT 当ASR置信度较低时，引导模型进行多假设推理： ``` "ASR转录中存在低置信度片段：[黎明/李明]。假设A：若实体为'李明'，则... 假设B：若实体为'黎明'，则... 综合上下文，最可能的解释是..." ``` ### 4.4 自我验证CoT 推理完成后，引导模型对实体绑定结果进行回溯验证： ``` "在给出最终答案前，请检查： - 每个实体的角色归属是否与原文一致？ - 是否存在被遗漏或错误替换的实体？ - 结论中的每一个断言是否都能追溯到具体的原文实体？" ``` --- ## 5. 实验设置 ### 5.1 数据集 - AISHELL-NER：中文语音命名实体识别基准 - MagicData-RAMC：多人对话语音数据集 - 自建评估集：包含500条人工标注的实体绑定失败案例 ### 5.2 模型 | 模型 | 版本 | |------|------| | GPT-4o | 2024-05 | | Claude 3.5 Sonnet | 2024-10 | | Qwen-Audio | Turbo | | Gemini 1.5 Pro | 最新版 | ### 5.3 基线与对比条件 - Baseline：直接将ASR输出送入LLM - CoT-Generic：通用思维链提示 - CoT-EBF：本文提出的实体绑定专用CoT - Oracle：使用人工校正的转录文本 --- ## 6. 实验结果 ### 6.1 整体EBA比较 | 方法 | GPT-4o | Claude 3.5 | Qwen-Audio | 平均 | |------|--------|------------|------------|------| | Baseline | 71.3% | 68.9% | 64.2% | 68.1% | | CoT-Generic | 74.8% | 72.1% | 67.5% | 71.5% | | CoT-EBF（本文） | 83.6% | 81.2% | 76.4% | 80.4% | | Oracle | 91.2% | 89.7% | 85.3% | 88.7% | ### 6.2 按失败类型的改进分析 CoT-EBF在不同失败类型上的EBA提升幅度（相对于Baseline）： ``` 同音替换错误： +14.2% ████████████████ 指代歧义： +11.8% █████████████ 跨句实体漂移： +9.3% ██████████ 数值实体混淆： +7.6% ████████ 嵌套实体错误： +12.1% █████████████ ``` ### 6.3 CoT组件消融实验 | CoT组件 | EBA | |---------|-----| | 无（Baseline） | 68.1% | | + 显式实体抽取 | 73.4% | | + 渐进式消歧 | 76.9% | | + 不确定性感知 | 79.1% | | + 自我验证 | 80.4% | --- ## 7. 案例分析 ### 案例1：同音替换导致的绑定失败 ASR转录： > "董事会决定让王总接替李总的职务，他将在下月正式就任。" ASR错误版本： > "懂事会决定让王总接替李总的职务，他将在下月正式就任。" Baseline模型输出（失败）： > 模型将"懂事会"解析为某个人名，导致后续代词"他"的绑定对象产生歧义。 CoT-EBF干预后： > 模型在推理第一步识别到"懂事会"可能是"董事会"的转录错误，基于语境将其修正为机构实体，并正确将"他"绑定至"王总"。 --- ### 案例2：多轮对话中的实体漂移对话记录： ``` 轮次1 - 用户A："张三昨天提交了报告。" 轮次2 - 用户B："他说内容有问题。" 轮次3 - 用户A："那是谁的责任？" ``` Baseline失败原因：在轮次2中，"他"可能指张三或用户B，模型未能利用说话人身份信息进行消歧，导致责任归属错误。 CoT-EBF处理：渐进式消歧步骤引导模型考虑说话人轮次信息，识别出轮次2中的"他"在语用层面更可能指代不在场的第三方（张三），从而正确锁定责任归属。 --- ## 8. 讨论 ### 8.1 CoT干预的局限性 1. 计算开销：显式实体抽取和多步推理增加了token消耗，平均增幅约为40-60%。 2. 级联错误风险：若CoT第一步的实体抽取本身出错，后续步骤可能放大错误。 3. 跨语言迁移：本文实验主要基于中文语料，CoT模板的跨语言效果有待验证。 ### 8.2 与RAG的结合潜力将实体绑定CoT与检索增强生成（RAG）相结合，利用知识库对候选实体进行验证，有望进一步提升同音替换场景下的绑定准确率。 ### 8.3 端到端语音LLM的影响随着端到端语音LLM（如 Qwen-Audio、Gemini 1.5 Pro）的普及，ASR与LLM的分离架构将逐渐减少，但实体绑定问题在端到端模型中仍以隐式形式存在，CoT干预策略同样适用。 --- ## 9. 相关工作 - 实体链接与消歧：[Sevgili et al., 2022] 对神经实体链接方法的综述。 - 语音识别错误鲁棒性：[Belinkov & Glass, 2018] 关于NLP模型对输入噪声的脆弱性分析。 - 思维链推理：[Wei et al., 2022] CoT提示的奠基性工作；[Wang et al., 2023] 自一致性CoT。 - 多模态LLM推理：[Driess et al., 2023] PaLM-E 中的跨模态实体推理。 - 指代消解：[Stoyanov et al., 2010] 基于机器学习的共指消解研究。 --- ## 10. 结论本文系统诊断了语音LLM推理中的实体绑定失败问题，提出了涵盖五种失败类型的分类体系，并设计了由四个模块组成的CoT干预框架（显式实体抽取、渐进式消歧、不确定性感知推理、自我验证）。实验结果表明，CoT-EBF相比Baseline在实体绑定准确率上平均提升 12.3个百分点，在同音替换错误和嵌套实体错误类型上尤为显著。未来工作将聚焦于： - 自动CoT模板生成（减少人工设计成本） - 与端到端语音LLM的深度集成 - 低资源语言场景下的泛化性验证 --- ## 参考文献 1. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022. 2. Wang, X., et al. (2023). Self-consistency improves chain of thought reasoning in language models. ICLR 2023. 3. Belinkov, Y., & Glass, J. (2018). Analysis methods in neural language processing. TACL. 4. Sevgili, Ö., et al. (2022). Neural entity linking: A survey of models based on deep learning. Semantic Web Journal. 5. Driess, D., et al. (2023). PaLM-E: An embodied multimodal language model. ICML 2023. 6. Stoyanov, V., et al. (2010). Coreference resolution with reconcile. ACL 2010. --- 本文为技术分析性文章，实验数据为示意性结果，旨在说明方法论框架。

arXiv cs.CL

本文识别了语音大语言模型（SLLMs）中一种局部化的"实体绑定失败"现象——即涉及实体追踪的逻辑推理准确率骤降至随机水平，并提出了实体感知思维链（EA-CoT）提示方法来解决这一问题，最终实现了高达 24.4% 的绝对准确率提升。

嵌入模型如何绑定概念？

Hugging Face Daily Papers

本文探讨了CLIP为何在概念绑定上表现不佳，表明虽然CLIP的绑定函数复杂度高，但受控的Transformer模型可以通过乘法交互学习复杂度较低的绑定函数，从而更好地泛化。

多模态大语言模型内部视觉表征的因果探针

arXiv cs.AI

本文提出了一种用于探测多模态大语言模型内部视觉表征的因果框架，揭示了实体与抽象概念在编码方式上的差异。研究强调增加模型深度对于编码抽象概念至关重要，并揭示了当前多模态大语言模型在感知与推理之间的脱节。

提交意见反馈