粒度轴：语言模型中社会角色的微观到宏观隐式方向

Hugging Face Daily Papers 2026/05/07 00:00 论文

llm-interpretability social-roles activation-steering latent-space qwen llama

摘要

这篇研究论文探讨了大型语言模型如何将社会角色的细粒度性编码为一个结构化的潜在维度。研究证实，这一“细粒度轴”在 Qwen3 和 Llama-3 等不同架构中保持一致，并且可以通过激活 steering（activation steering）进行因果干预。

大型语言模型（LLMs）经常被提示扮演从个人到机构的各种社会角色，但尚不清楚其内部表征是否编码了此类角色的粒度——从微观层面的个人体验到宏观层面的组织、机构或国家推理。我们证明了它们确实做到了这一点。我们将基于对比的“粒度轴”（Granularity Axis）定义为平均宏观角色与微观角色隐藏状态之间的差异。在 Qwen3-8B 中，该轴与角色表征空间的主轴（第一主成分 PC1）高度一致（余弦相似度为 0.972），并解释了其中 52.6% 的方差，这表明粒度是组织提示社会角色的主导几何轴。我们构建了跨越五个粒度层级的 75 种社会角色，并在共享问题和提示变体上收集了 91,200 条角色条件化响应，随后提取角色级别的隐藏状态并将其投影到该轴上。角色投影在所有五个层级上单调递增，在层数、提示变体、端点定义、保留数据子集以及分数过滤子集上保持稳健，并且能够迁移至 Llama-3.1-8B-Instruct。该轴也具有因果相关性：沿该轴进行激活引导会将响应粒度向预测方向偏移；在接受本地响应的提示中，Llama 在正向引导下的五分量表宏观评分从 2.00 上升至 3.17。这两个模型在可控性方面存在差异，表明引导效果取决于每个模型的默认运行模式。总体而言，我们的发现表明，社会角色的粒度不仅仅是一种风格化的表面特征，而是角色条件化语言模型行为中一种结构化、有序且可因果操纵的潜在方向。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 07:40

论文页面 - 粒度轴：语言模型中社会角色的微观至宏观潜在方向

来源：https://huggingface.co/papers/2605.06196

摘要

大型语言模型将社会角色粒度编码为一个结构化的潜在维度，该维度可以通过激活引导进行操控，并在不同的模型架构和提示条件下表现出一致的模式。

大型语言模型（https://huggingface.co/papers?q=Large%20language%20models）（LLMs）通常被提示承担从个人到机构等范围的社会角色（https://huggingface.co/papers?q=social%20roles），但尚不清楚其内部表示是否编码了此类角色的粒度，即从微观层面的个人经验到宏观层面的组织、机构或国家推理。我们表明它们确实做到了这一点。我们将基于对比的粒度轴（https://huggingface.co/papers?q=contrast-based%20Granularity%20Axis）定义为平均宏观角色隐藏状态（https://huggingface.co/papers?q=hidden%20states）与微观角色隐藏状态之间的差值。在 Qwen3-8B 中，该轴与角色表示空间（https://huggingface.co/papers?q=role%20representation%20space）的主轴（https://huggingface.co/papers?q=principal%20axis）（PC1）呈 0.972 的余弦相似度，并解释了 52.6% 的方差，表明粒度是组织提示社会角色（https://huggingface.co/papers?q=social%20roles）的主导几何轴。我们构建了涵盖五个粒度级别的 75 个社会角色（https://huggingface.co/papers?q=social%20roles），并收集了针对共享问题和提示变体的 91,200 条角色条件响应（https://huggingface.co/papers?q=role-conditioned%20responses），然后提取角色级别的隐藏状态（https://huggingface.co/papers?q=hidden%20states）并将其投影到该轴上。角色投影在所有五个级别上单调增加，在各层、提示变体、端点定义、保留分割集和分数过滤子集中保持稳定，并可迁移至 Llama-3.1-8B-Instruct。该轴也具有因果相关性：沿此轴进行的激活引导（https://huggingface.co/papers?q=activation%20steering）会按预测方向改变响应的粒度，在允许局部响应的提示下，Llama 在五点宏观量表上从 2.00 变为 3.17。两个模型在可控性方面存在差异，表明引导取决于每个模型的默认操作模式。总体而言，我们的研究结果表明，社会角色粒度不仅仅是一种风格化的表面特征，而是角色条件语言模型行为中一个结构化、有序且可因果操控的潜在方向（https://huggingface.co/papers?q=latent%20direction）。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06196) 查看 PDF (https://arxiv.org/pdf/2605.06196) 项目页面 (https://github.com/qinchonghanzuibang/Granularity-Axis)GitHub0 (https://github.com/qinchonghanzuibang/Granularity-Axis)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.06196)

在您的 agent 中获取此论文：

hf papers read 2605\.06196

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06196 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06196 以从此页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.06196 以从此页面链接它。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面链接它。

粒度轴：语言模型中社会角色的微观到宏观隐式方向

论文页面 - 粒度轴：语言模型中社会角色的微观至宏观潜在方向

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的集合 0

相似文章

论大语言模型的固有可解释性：设计原则和架构调查

多模态大语言模型内部视觉表征的因果探针

赋予角色的大型语言模型表现出类似人类的动机推理

大规模推理模型（尚）不是多语言潜在推理器

神经语言模型的缩放规律

提交意见反馈