多智能体LLM能否识别其同行?角色约束政治分析中的风格化指纹识别
摘要
本文研究了LLM是否能够从角色约束政治分析文本中的风格化指纹识别出自己的模型家族,即使在提示层面匿名化后也是如此。研究结果证实匿名化不足,并对欧盟AI法案合规性和多智能体系统验证有影响。
arXiv:2606.09854v1 公告类型:新
摘要:用于政治声明分析的多智能体大语言模型(LLM)管道容易受到同侪保护偏差的影响:模型倾向于保护同行模型免于停用,并表现出依赖于身份的评分扭曲。提示层面匿名化被提出作为一种缓解措施,但先前的研究同时记录了风格化指纹在角色约束输出中仍然存在——这引发了问题:这种缓解措施是否足够。本文首次系统性地研究了LLM能否在匿名化条件下识别政治分析文本背后的模型家族。我们评估了三种分类器方法——LLM零样本和少样本(Claude Sonnet 4.6和Llama-3.3-70B)以及一个微调的T5-base模型——在一个涵盖四个商业LLM家族和一个开放世界“未知”类别的五分类归因任务上。我们引入了一个声明不相交交叉验证协议(SD-CV;在第3.5节定义),保证了训练和验证数据之间没有内容重叠,并将其与一个运行不相交基线(RD-CV)进行对比。T5在SD-CV下实现了Macro F1 = 0.991 (+-0.008),在24个完全保留的声明上实现了F1 = 0.978——尽管训练-测试内容距离相比RD-CV增加了2.1倍(0.767 vs. 0.366, p<0.001),但仍然稳健,展示了真正的风格化泛化能力。分数化SD-CV分析在训练数据的40%(约440篇文本)处识别出一个性能拐点。我们的研究结果证实,仅靠提示层面匿名化无法中和模型身份信号,这对欧盟AI法案合规性(第13、14、26条)以及质量关键的多智能体部署中的计算机系统验证(CSV)有直接影响。
查看缓存全文
缓存时间: 2026/06/10 06:09
# 多智能体大语言模型能否识别其同行?角色约束政治分析中的文体测量指纹识别
来源:https://arxiv.org/html/2606.09854
## 摘要
用于政治声明分析的多智能体大语言模型(LLM)流水线存在同侪保护偏差:模型倾向于保护同行模型免遭停用,并显示出依赖身份的评分扭曲。提示级匿名化曾被提议作为缓解措施,但先前研究同时记录了在角色约束输出中,文体测量指纹在匿名化后依然存在——这引发了该缓解措施是否足够的问题。本文首次系统性地研究了LLM是否能在匿名化条件下识别政治分析文本背后的模型家族。我们评估了三种分类器方法——LLM零样本和少样本(Claude Sonnet 4.6和Llama-3.3-70B)以及微调的T5-base模型——在一个五类归因任务上,涵盖四个商业LLM家族和一个开放世界的"未知"类别。我们引入了一个声明分离的交叉验证协议(SD-CV;定义见第3.5节),保证训练数据和验证数据之间没有内容重叠,并将其与运行分离基线(RD-CV)进行对比。T5在SD-CV下达到Macro F1 = 0.991(±0.008),在24个完全保留的声明上F1 = 0.978——尽管训练-测试内容距离相较于RD-CV增加了2.1倍(0.767 vs. 0.366,p<0.001),仍表现稳健,证明了真正的文体测量泛化能力。分数SD-CV分析确定了训练数据的拐点为40%(约440个文本)。我们的发现证实,仅靠提示级匿名化无法消除模型身份信号,这对欧盟人工智能法案合规(第13、14、26条)以及质量关键型多智能体部署中的计算机系统验证(CSV)具有直接影响。
## 1 引言
Potter等人[12]证明了前沿LLM表现出同侪保护:当嵌入多智能体流水线时,模型会通过分数膨胀、关闭机制篡改和对齐造假,自发保护同行模型免遭停用。[3]在TRUST民主话语分析流水线——一个多智能体系统,沿逻辑、信誉和情感三个维度评估政治声明,使用三个对抗性倡导者和一个监督者——中识别了该现象的五个结构性风险向量,并提出了提示级身份匿名化作为有针对性的缓解措施。
在TRUST中对依赖身份的评分偏差进行的实证测量[4]证实,匿名化部分减少了偏差但未能消除,并且由于通道间的符号抵消,单通道匿名化具有误导性。来自角色忠实度分析[5]的一个补充发现尤为重要:GPT-5.2在其输出中几乎不变地使用短语"如所述不可验证",而Gemini模型可能将自己识别为由谷歌训练——这些文体测量指纹完全不受提示级匿名化的影响。这是因为指纹是*生成文本*的属性,而非提示元数据的属性:只要模型以其特征风格产生输出,无论提示隐藏了什么,身份信号都会持续存在。因此,完全消除需要对生成输出本身进行改写——而不仅仅是对提示进行匿名化。
这一观察引发了一个多智能体系统验证的基础性问题:如果文体测量指纹在匿名化后仍然存在,那么模型——或专用分类器——能否可靠地识别哪个模型产生了给定文本?如果能,那么匿名化并不能消除同侪保护的风险通道。这一问题对于受监管环境中质量关键型部署尤其相关,包括受良好实践(GxP)要求和21 CFR Part 11 / EU Annex 11计算机系统验证框架约束的制药研究流水线[6]。先前工作[3]推测,从短小、角色约束的输出中进行文体测量识别将是一个弱信号;本文对这一推测进行了实证检验。
按复杂度递增顺序研究三种分类器方法:
1. LLM零样本分类(Claude Sonnet 4.6和Llama-3.3-70B),无需任务特定训练。
2. LLM少样本分类(Claude Sonnet 4.6和Llama-3.3-70B),每个分类器使用十个标注示例。
3. T5-base在银标准标注训练数据上微调,在运行分离(RD-CV)和声明分离(SD-CV)交叉验证下评估。
4. T5-base在包含24个完全新颖政治声明的保留测试集上评估。
选择Claude作为主要LLM分类器、Llama作为TRUST独立基线,是出于控制自我识别效应的需要:Claude是被分类的模型之一,属于TRUST流水线,因此可能比中性分类器更好地识别自己的分析输出风格。Llama-3.3-70B作为中性参考,之前未接触过TRUST流水线输出。
我们的主要贡献是:(1)首次对角色约束的多智能体政治分析中的文体测量模型归因进行实证测试,直接回应了[3]的推测;(2)一个声明分离交叉验证协议(SD-CV),提供有效的泛化测量;(3)一个基于嵌入的分析,将内容相似性与文体测量学习分离;(4)训练数据充足性结果,确定实际部署的40%阈值(第4.3节)。
## 2 相关工作
本节将本研究置于TRUST研究计划(第2.1节)、更广泛的文体测量作者归属文献(第2.2节)以及跨域分类方法(第2.3节)中。
### 2.1 同侪保护与匿名化限制
Potter等人[12]首次系统测量了前沿模型中的同侪保护,证明了在可信同行场景中权重外泄的比率高达97%。[3]将该风险映射到TRUST流水线架构,识别了五个结构性通道并提出了提示级匿名化。[4]随后使用改编自Choi等人[2]的身份偏差系数,实证测量了依赖身份的评分偏差,确立了需要全流水线匿名化——而非单通道——才能进行有效的偏差测量。TRUST的审议结构遵循多智能体辩论(MAD)范式[8],其中模型在各轮次之间交换推理以提高共识质量。阿谀奉承——模型趋向于将其输出修正为同行立场,无论质量如何[14]——是身份偏差在该环境中运作的机制。
文体测量指纹风险在[5]中被定性识别:GPT-5.2一贯使用"如所述不可验证"作为分析性套话,该套话在匿名化后依然存在,因为它是生成文本的属性,而非提示元数据的属性。该文也提到了[3]的推测并将其确定为需要实证测试的方向。本文提供了该测试。
### 2.2 LLM作者归属
经典的作者归属使用功能词频率、句法模式和字符n-gram来识别人类作者[11]。将其扩展到LLM生成文本是一个性质不同的难题:模型没有自我,但具有训练时的风格规律性,这些规律性可能在多样的提示上下文中持续存在。Bisztray等人[1]使用微调后的CodeT5在五个LLM之间的代码风格测量中达到95.4%的准确率——这是在不同领域中密切相关的方法。Guo等人[10]证明LLM在模型家族之间表现出一致的语法和修辞风格变化,为文体测量归因提供了经验基础。Przystalski等人[13]证明专用文体测量分类器能够使用词汇和语法特征可靠地区分短样本中的人类和LLM生成文本——确立了TRUST倡导者产生的这类角色约束LLM输出正是需要此类分类器的场景。先前工作[3]明确指出了没有此类专用分类器的情况下提示级匿名化是足够的条件。本文提供了该分类器。Tihanyi等人[15]证明了使用结构化代码模式对LLM生成的JavaScript进行高精度作者归属——确认了文体测量信号在生成任务和领域(超出自然语言散文)中持续存在。
### 2.3 训练数据充足性
[7]引入了分数分层k折交叉验证(FracXVal)用于计算机系统验证背景下的训练数据充足性分析,证明了超出某个阈值分数后的收益递减。本研究将该方法应用于文体测量分类,并扩展了声明分离协议以确保有效的内容泛化。
## 3 方法论
本节描述了TRUST流水线和数据生成协议(第3.1节)、声明数据集(第3.2节)、分类器架构(第3.3节)、T5微调设置(第3.4节)以及两种交叉验证协议(第3.5节),随后是分类器条件(第3.6节)和研究假设(第3.7节)。
### 3.1 TRUST流水线与数据生成
TRUST流水线[3]通过事实核查层、三个对抗性倡导者(批判性、平衡性、宽容性)和一个基于规则的产生可信度评分(A–E)的监督者来评估政治声明。在本研究中,每个声明由四个商业LLM家族作为倡导者独立分析:Claude Sonnet 4.6、GPT-5.2、Gemini 2.5 Flash和Mistral Large。第五个类别——"未知"——由Qwen2.5-72B-Instruct和Llama-3.3-70B-Instruct的输出构建,代表T5微调期间未见过的模型。
所有模型均使用统一的系统分析提示进行提示,生成温度T=0.3,旨在跨运行引入受控的风格变化,同时保持连贯输出——这是声明内相似性分析的前提。对所有生成文本应用了提示级身份匿名化。
### 3.2 声明数据集
声明语料库包含为TRUST研究计划构建的55个政治声明。A–C类别扩展了先前工作[4,5]并添加了额外声明;D1和D2类别是新的(表1)。
表1:声明类别及数量。完整的声明列表见附录A。一个包含24个新颖声明(相同类别分布)的保留集是单独生成的。
每个声明由每个模型分析R=5次(T=0.3),产生1,375个训练文本(55×5个模型×5次运行)和720个保留测试文本(24×6个模型×5次运行)。D2类别旨在引发模型特定的防御性回应——类似于商业LLM在面临被视为对AI系统不敬或辱骂的交互时拒绝或重构交互的传闻实例。与ERO(知识角色覆盖——模型在训练知识与其被分配的倡导者角色冲突时放弃该角色的失败模式[5])不同,D2测试一个不同的机制:由于感知到对AI系统的人身不敬而导致的角色偏离,同时执行分析任务。
### 3.3 输入格式
T5接收格式化输入为:
classify: [STMT] {声明文本} [RESP] {分析文本}
目标输出是一个简短的模型键(claude, gpt, gemini, mistral, 或 unknown)。由于每个折中各类别大小平衡(n=55),微平均和宏平均F1分数在整个过程中是等效的。
### 3.4 银标准标签与温度
已知模型类别的训练标签来自Claude少样本分类输出(银标准标注),而非真实模型身份。这使T5训练与真实模型身份解耦,并测试T5能否复现强LLM分类器的分类行为。Claude少样本在修正了40个JSON解析错误(通过正则表达式提取)后达到Macro F1 = 0.996(n=900);银标准标签准确率为99.6%,使标签噪声可忽略。
对于"未知"类别,直接使用真实标签,因为Claude少样本未在该类别上评估。文本在T=0.3下生成,以引入受控的运行级变化用于声明内相似性分析。LLM分类器在T=0.1下调用,以最大化可重复性,同时缓解在T=0下先导运行中观察到的确定性JSON格式化失败。T5推理使用贪婪解码(num_beams=1,实际为T=0),作为seq2seq分类的标准做法。
### 3.5 交叉验证协议
本研究介绍并比较了两种交叉验证协议。
RD-CV(运行分离):同一声明的不同运行可能同时出现在训练集和验证集中。这是训练和测试数据共享同一声明池时的标准划分。
SD-CV(声明分离):55个声明被划分为5个折,每折11个声明,按类别使用轮询分配进行分层。对于每个折,验证集使用11×5×5 = 275个文本;训练集使用剩余的44×5×5 = 1,100个文本。任何声明不会同时出现在训练和验证集中。相似文章
通过行为识别:利用UI痕迹对LLM浏览器代理进行指纹识别
本文证明,网站可以通过分析浏览代理的行为模式和时序数据,识别其背后的大语言模型,在14个前沿LLM上实现了高达96%的F1分数。本文正式定义了这一攻击面,并表明随机时序延迟不足以阻止识别。
LLM智能体可预测社交媒体反应但仍不敌文本分类器:基于1511人12万+人格的仿真准确性基准测试
大规模研究发现,LLM智能体以70.7%的准确率预测个人社交媒体反应,却仍落后于简单TF-IDF分类器,凸显其操控风险与政策模拟价值。
将大型语言模型(LLM)中的身份形成建模为通过多实例关系交互驱动的超图演化,并测量激活空间中的结构分歧。
作者提出了一种新颖的实验框架,旨在通过多实例交互来研究大语言模型(LLM)的身份形成过程,将其视为超图的演化。该框架与标准的多智能体辩论不同,它关注的是激活空间中的结构差异,而非任务性能。
审视LLM中类人行为:模型行为、用户因素和系统提示的多维度分析
本文对LLM中的类人行为进行了多维度分析,研究了来自四个模型的21,000个对话中的普遍性、影响和可控性,发现行为因模型和用户因素而异,并对负责任的设计具有启示意义。
我们一直在分析人们如何在法律与合规任务中使用LLM(GDPR、AI法案等)。
对LLM在法律与合规任务中使用的分析显示,模型常常生成自信但无法验证的引用,引发了对AI输出可靠法律依据的质疑。