粒度轴:语言模型中社会角色的微观到宏观隐式方向

Hugging Face Daily Papers 论文

摘要

这篇研究论文探讨了大型语言模型如何将社会角色的细粒度性编码为一个结构化的潜在维度。研究证实,这一“细粒度轴”在 Qwen3 和 Llama-3 等不同架构中保持一致,并且可以通过激活 steering(activation steering)进行因果干预。

大型语言模型(LLMs)经常被提示扮演从个人到机构的各种社会角色,但尚不清楚其内部表征是否编码了此类角色的粒度——从微观层面的个人体验到宏观层面的组织、机构或国家推理。我们证明了它们确实做到了这一点。我们将基于对比的“粒度轴”(Granularity Axis)定义为平均宏观角色与微观角色隐藏状态之间的差异。在 Qwen3-8B 中,该轴与角色表征空间的主轴(第一主成分 PC1)高度一致(余弦相似度为 0.972),并解释了其中 52.6% 的方差,这表明粒度是组织提示社会角色的主导几何轴。我们构建了跨越五个粒度层级的 75 种社会角色,并在共享问题和提示变体上收集了 91,200 条角色条件化响应,随后提取角色级别的隐藏状态并将其投影到该轴上。角色投影在所有五个层级上单调递增,在层数、提示变体、端点定义、保留数据子集以及分数过滤子集上保持稳健,并且能够迁移至 Llama-3.1-8B-Instruct。该轴也具有因果相关性:沿该轴进行激活引导会将响应粒度向预测方向偏移;在接受本地响应的提示中,Llama 在正向引导下的五分量表宏观评分从 2.00 上升至 3.17。这两个模型在可控性方面存在差异,表明引导效果取决于每个模型的默认运行模式。总体而言,我们的发现表明,社会角色的粒度不仅仅是一种风格化的表面特征,而是角色条件化语言模型行为中一种结构化、有序且可因果操纵的潜在方向。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:40

论文页面 - 粒度轴:语言模型中社会角色的微观至宏观潜在方向

来源:https://huggingface.co/papers/2605.06196

摘要

大型语言模型将社会角色粒度编码为一个结构化的潜在维度,该维度可以通过激活引导进行操控,并在不同的模型架构和提示条件下表现出一致的模式。

大型语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLMs)通常被提示承担从个人到机构等范围的社会角色(https://huggingface.co/papers?q=social%20roles),但尚不清楚其内部表示是否编码了此类角色的粒度,即从微观层面的个人经验到宏观层面的组织、机构或国家推理。我们表明它们确实做到了这一点。我们将基于对比的粒度轴(https://huggingface.co/papers?q=contrast-based%20Granularity%20Axis)定义为平均宏观角色隐藏状态(https://huggingface.co/papers?q=hidden%20states)与微观角色隐藏状态之间的差值。在 Qwen3-8B 中,该轴与角色表示空间(https://huggingface.co/papers?q=role%20representation%20space)的主轴(https://huggingface.co/papers?q=principal%20axis)(PC1)呈 0.972 的余弦相似度,并解释了 52.6% 的方差,表明粒度是组织提示社会角色(https://huggingface.co/papers?q=social%20roles)的主导几何轴。我们构建了涵盖五个粒度级别的 75 个社会角色(https://huggingface.co/papers?q=social%20roles),并收集了针对共享问题和提示变体的 91,200 条角色条件响应(https://huggingface.co/papers?q=role-conditioned%20responses),然后提取角色级别的隐藏状态(https://huggingface.co/papers?q=hidden%20states)并将其投影到该轴上。角色投影在所有五个级别上单调增加,在各层、提示变体、端点定义、保留分割集和分数过滤子集中保持稳定,并可迁移至 Llama-3.1-8B-Instruct。该轴也具有因果相关性:沿此轴进行的激活引导(https://huggingface.co/papers?q=activation%20steering)会按预测方向改变响应的粒度,在允许局部响应的提示下,Llama 在五点宏观量表上从 2.00 变为 3.17。两个模型在可控性方面存在差异,表明引导取决于每个模型的默认操作模式。总体而言,我们的研究结果表明,社会角色粒度不仅仅是一种风格化的表面特征,而是角色条件语言模型行为中一个结构化、有序且可因果操控的潜在方向(https://huggingface.co/papers?q=latent%20direction)。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06196) 查看 PDF (https://arxiv.org/pdf/2605.06196) 项目页面 (https://github.com/qinchonghanzuibang/Granularity-Axis)GitHub0 (https://github.com/qinchonghanzuibang/Granularity-Axis)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.06196)

在您的 agent 中获取此论文:

hf papers read 2605\.06196

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06196 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06196 以从此页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.06196 以从此页面链接它。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

论大语言模型的固有可解释性:设计原则和架构调查

arXiv cs.CL

一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。

多模态大语言模型内部视觉表征的因果探针

arXiv cs.AI

本文提出了一种用于探测多模态大语言模型内部视觉表征的因果框架,揭示了实体与抽象概念在编码方式上的差异。研究强调增加模型深度对于编码抽象概念至关重要,并揭示了当前多模态大语言模型在感知与推理之间的脱节。

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。

大规模推理模型(尚)不是多语言潜在推理器

arXiv cs.CL

本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。

神经语言模型的缩放规律

OpenAI Blog

基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。