READER：基于提取表示的鲁棒证据驱动作者身份解码

arXiv cs.AI 2026/06/10 04:00 论文

摘要

介绍READER，一种用于动态黑盒LLM溯源的轻量级框架，它利用冻结的代理LLM从回复中提取作者身份证据，并在多次查询中进行贝叶斯证据累积，在Agent500数据集上实现了高精度。

arXiv:2606.10794v1 公告类型：新摘要：随着智能体应用越来越多地通过官方和第三方LLM API路由用户任务，溯源成为一个操作性问题：哪个模型生成了给定的黑盒响应？我们研究动态黑盒LLM溯源：从由查询变化、非预定义提示（而非固定输入集或基准套件）引发的生成中识别源LLM。这个设定具有挑战性，因为提示语义主导文本，而模型特定的作者身份痕迹在表面层面较弱且不一致。我们提出READER（基于提取表示的鲁棒证据驱动作者身份解码），一种轻量级溯源框架，将冻结的代理LLM视为隐藏作者身份证据的阅读器。READER将黑盒输出映射到代理激活空间，对每个响应内的令牌状态进行时间滤波，并通过跨独立采样提示对单响应对数后验证据求和来执行贝叶斯证据累积。这避免了提示特定表示的脆弱平均池化，同时保留了校准置信度所需的查询级证据。在Agent500（一个由智能体风格提示构建的50目标数据集）上，READER从单个响应达到$31.0$-$42.4\%$的前1准确率，从50个响应达到$70.0$-$84.0\%$，显著优于句子编码器指纹。跨九个代理阅读器的扩展进一步表明，更强的LLM暴露更多线性可解码的作者身份结构，暗示作者身份感知已经存在于冻结的LLM表示中，并且可以转化为可靠的多查询归因。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:17

# READER: 基于提取表征的鲁棒证据归属解码  
来源：https://arxiv.org/html/2606.10794  

刘嘉旭¹⁻⁴，穆孙楠²⁺，黄东¹，王柳尹³，邵婧⁴，张洁⁴  
¹新加坡国立大学，²西安电子科技大学，³清华大学，⁴上海人工智能实验室  
{jiaxu.liu,dong.huang}@u.nus.edu  
[email protected]  
[email protected]  
{shaojing,zhangjie1}@pjlab.org.cn  

###### 摘要  

随着智能体型应用日益通过官方及第三方LLM API路由用户任务，模型来源（provenance）成为一个操作性问题：究竟哪个模型生成了某个黑盒响应？我们研究**动态黑盒LLM来源识别**：从查询变化、非预定义提示词所引发的生成内容中识别源LLM，而非依赖于固定输入集或基准测试套件。该场景的难点在于提示词语义主导了文本，而模型特定的作者痕迹在表层上较弱且不一致。  

我们提出**READER**（通过提取表征进行鲁棒证据归属解码），一个轻量级来源识别框架，将冻结的代理LLM视为隐藏作者证据的“阅读器”。READER将黑盒输出映射到代理激活空间，对每个响应内的词元状态进行时域滤波，并通过独立采样提示词的跨响应对数后验证据求和，执行贝叶斯证据累积。这避免了针对提示词特定表征的脆弱均值池化，同时保留了校准置信度所需的逐查询证据。  

在Agent500（一个由智能体风格提示词构建的50目标数据集）上，READER从单个响应中达到31.0–42.4%的top-1准确率，从50个响应中达到70.0–84.0%，显著优于句子编码指纹。跨越九个代理阅读器的进一步扩展实验表明，更强的LLM暴露了更线性可解码的作者结构，提示作者感知已存在于冻结LLM表征中，并可转化为可靠的多查询归属。  

## 1 引言  

大语言模型已从独立的聊天机器人转变为智能体、工作流自动化及第三方API服务背后的基础设施[30]。在这种环境下，模型身份成为一个操作属性：系统可能需要验证某个响应是来自授权模型、未经授权的包装器、静默替换的后端，还是已知存在安全与合规风险的模型家族。  

先前工作将模型所有权定义为部署时的保护问题[7,9]，而系统卡和近期的不一致性报告表明，部署的API行为可能带来安全、版权和稳定性问题[15,24]。我们提出一个实际的溯源性疑问：仅凭生成的文本和查询访问，能否识别出哪个LLM产生了该响应？  

现有的黑盒来源方法通常比较受控输入分布下的输出，例如预定义提示词、通用提示词集或固定基准测试套件[14,32,17,27]。这在受控比较中很有用，但实时API审计所观察到的是用户或任务特定的提示词，其语义在查询之间变化。据我们所知，我们是首个提出并研究**动态黑盒LLM来源识别**的工作：从查询变化、非预定义提示词引发的生成内容中识别源LLM。我们用Agent500（包含50个目标的智能体风格提示词语料库）实例化该场景。  

挑战在于提示词语义主导了表层文本，使得源模型证据成为微弱且不稳定的信号。我们的方法是使用冻结的代理LLM作为来源阅读器。代理不是将生成文本在句子嵌入空间中进行匹配，而是将黑盒响应映射到激活空间，在此空间中微妙的生成习惯可能变得更容易线性访问。这提供了对激活证据的实用使用方式，与机制可解释性研究一致，同时避免仅凭可解码性得出因果性论断[34]。它无需访问目标模型的权重、logits、梯度或解码内部构造。  

我们提出**READER**：通过提取表征进行鲁棒证据归属解码。READER利用冻结的代理LLM读取每个响应，将响应词元的隐藏状态平均为单响应表征，并通过线性探针将其映射到候选源模型的后验概率上。对于多查询归属，READER执行**贝叶斯证据累积**，对跨独立采样响应的校准对数后验证据求和。这种设计将单响应证据与多查询可靠性分离。  

在Agent500上，READER从单个响应（K=1）中实现31.0–42.4%的top-1准确率，远高于2%的随机水平及句子编码基线。使用50个独立采样响应（K=50），它在四个主要代理阅读器上达到70.0–84.0%的准确率。混淆矩阵和t-SNE可视化进一步揭示了冻结代理表征中的家族级结构，更强的代理阅读器暴露了更清晰的作者几何结构。  

我们的贡献是：  
- **动态黑盒LLM来源识别**。我们提出了从查询变化的黑盒生成内容中识别来源的问题，并用Agent500（一个50目标的智能体风格数据集）实例化。  
- **READER，一个代理LLM作者阅读器**。我们表明冻结代理激活中包含线性可解码的源模型证据，在单响应情况下优于句子编码指纹。  
- **贝叶斯证据累积**。我们跨独立提示词聚合校准的对数后验证据，避免了提示词特定隐藏状态的不稳定几何池化。  
- **生态系统规模的证据**。在Agent500和九个代理阅读器上，更强的代理LLM暴露了更有用的作者结构，并显著提升了归属性能。  

## 2 相关工作  

##### 模型来源：从白盒到黑盒  
早期的LLM来源和所有权验证方法通常在设计上使模型可识别。解码时水印在生成文本中添加可检测的统计结构[7,9]，而训练时或指令时指纹则利用可触发的行为作为验证密钥[18,28]。最近的指纹变体提升了可扩展性、语义条件性、对模型融合的鲁棒性，或通过针对性对抗探针实现黑盒身份验证[3,4,13,29]。当模型所有者能在发布前对系统进行检测或设计验证专用的探针时，这些方法效果显著，但回顾性API审计往往缺乏这种条件。  

因此第二条路线致力于寻找模型身份的内在证据。白盒方法利用参数、梯度或内部表征，包括人类可读指纹[33]、基于梯度的指纹[26]以及表征相似性方法（如REEF，它通过中心核对齐比较嫌疑与受害者激活值[8,35]）。相关的黑盒指纹利用生成文本风格[12]或API保护场景中的输出空间行为[31]。  

更近期的黑贝来源方法通过比较受控输入集下的行为来避免访问目标内部：模型来源测试比较next token相似性与无关对照组[14]；模型来源集返回统计上有效的候选集[19]；LLMmap利用精心构造的探测查询和外部文本特征推断模型身份[17]；PhyloLM和LLM DNA则根据通用提示词集的输出推断模型关系[32,27]。这些黑盒方法共同表明，在精心控制的查询协议下，可以从生成的输出中推断出模型身份。然而，它们的证据往往与探针所引入的语义分布紧密相关，使得动态输入成为一个更困难的场景。  

READER遵循黑盒方向，但改变了证据来源：它将生成文本映射到冻结代理模型的激活空间，并累积校准的对数后验证据。图1总结了从白盒访问到静态及动态黑盒审计的进展过程。  

图1：从白盒到动态黑盒审计的溯源场景。白盒方法直接比较模型内部，静态黑盒方法查询共享或受控提示词集，而动态黑盒审计必须在查询变化的提示词引发的生成响应下，在不访问目标内部的情况下进行来源识别。  

##### 机制可解释性与代理激活证据  
机制可解释性为READER提供了表征层面的视角。早期的探针研究表明标记属性可以从冻结的神经状态中解码，同时警告探针准确率必须在控制条件下解释，且其本身不能证明因果使用[5,20]。随后关于叠加性和字典学习的工作解释了为何许多潜在特征可能共享高维激活空间，以及如何恢复更具可解释性的特征方向[2,1]。基于这一视角，激活引导和表征工程实证了高级行为通常能通过激活方向暴露或调节[36,21]。近期工作进一步将具体属性（如语言风格、情感推理）定位在LLM激活内部[10,22]。线性表征假说及其起源的最新分析提供了更形式化的解释，说明此类线性结构何时应在LLM表征中涌现[16,6]，而一项近期综述强调，若无干预的支持，可解码性仅停留在相关性层面[34]。  

READER利用这种相关性设置作为溯源性信号：它检验冻结代理激活中是否包含微弱但可重复的源模型证据，以及贝叶斯证据累积能否将该证据转化为可靠的归属。  

## 3 方法：READER框架  

READER（通过提取表征进行鲁棒证据归属解码）将冻结的代理LLM视为模型特定生成痕迹的阅读器。它不强制对语义和作者信息进行全局几何分离，而是采用两个轻量操作：每个响应内的时域滤波和跨独立提示响应之间的贝叶斯证据累积。图2给出了端到端流水线。  

图2：READER流水线概览。冻结的代理LLM读取黑盒目标响应，READER在每个响应内对选中的隐藏状态进行时域聚合，贝叶斯证据累积将跨多个提示的逐响应后验证据组合起来，实现最终源模型归属。  

### 3.1 代理表征中的作者信号  

令 \(\mathbf{h}_t^{(c,p)} \in \mathbb{R}^d\) 表示代理模型在读取目标模型 \(c\) 在提示词 \(p\) 下生成的文本时的隐藏状态。基于线性表征观点[2]，我们将该状态建模为：  

\[\mathbf{h}_t^{(c,p)} = \mathbf{S}^{(p)} + \Delta\mathbf{s}_t^{(p)} + \mathbf{a}^{(c)} + \bm{\epsilon}_t,\]  

其中 \(\mathbf{S}^{(p)}\) 是提示词层的语义分量，\(\Delta\mathbf{s}_t^{(p)}\) 是局部上下文漂移，\(\mathbf{a}^{(c)}\) 是目标模型的作者签名，\(\bm{\epsilon}_t\) 是高频解码噪声。动态溯源之所以困难，是因为语义变化通常主导较弱的作者分量。READER 通过过滤词元级噪声和累积微弱的逐响应证据，使作者证据更易获取，无需显式估计 \(\mathbf{a}^{(c)}\)。  

### 3.2 阶段1：时域低通滤波  

在一个生成的响应中，目标模型的习惯可能出现在多个位置，而词元状态通过自回归前缀相互关联。我们从响应中采样 \(M\) 个位置，并使用它们的算术均值作为序列级表征：  

\[\mathbf{u}^{(c,p)} = \frac{1}{M} \sum_{m=1}^{M} \mathbf{h}_{t_m}^{(c,p)}.\]  

该平均操作是一个加窗时域低通滤波器。它降低了高频解码噪声和局部漂移，获得一个更稳定的表征，虽仍依赖于特定提示词，但更适合单响应归属。  

### 3.3 阶段2：贝叶斯证据累积  

滤波后的向量 \(\mathbf{u}^{(c,p)}\) 仍可能被提示词语义主导，因此对查询变化的提示词进行向量平均是脆弱的。READER 在决策空间中进行聚合。对于来自同一未知目标模型的 \(K\) 个独立提示响应，令 \(\mathcal{U} = \{\mathbf{u}_1, \ldots, \mathbf{u}_K\}\)。在给定源模型的条件下假设条件独立且采用均匀类别先验时，MAP 推理累积逐响应对数似然 \(\sum_k \log p(\mathbf{u}_k \mid c)\)。我们通过训练一个判别性探针 \(q_\theta(c \mid \mathbf{u})\) 来避免显式密度估计。在均匀先验下，贝叶斯公式使得 \(\log q_\theta(c \mid \mathbf{u}_k)\) 成为 \(\log p(\mathbf{u}_k \mid c)\) 的类别相关替代量（相差一个与 \(c\) 无关的项）。由此得到判别性乘积专家决策规则：  

\[\hat{y} = \arg\max_{c \in \mathcal{C}} S_c, \quad S_c = \frac{1}{K} \sum_{k=1}^{K} \log q_\theta(c \mid \mathbf{u}_k).\]  

系数 \(1/K\) 使得不同查询预算下的得分尺度可比，且不影响 MAP 类别。模糊的提示词贡献低裕度证据，而更暴露作者痕迹的提示词则贡献更尖锐的 log

READER：基于提取表示的鲁棒证据驱动作者身份解码

相似文章

作者在环响应生成与评估：将作者专业知识和意图整合到同行评审回复中

SMADE-IE：用于零样本信息抽取的稀疏多智能体证据驱动辩论框架

部分证据基准：对智能体系统中授权受限证据的评估

从片段到语义：重新思考多语言事实核查的证据粒度

是时候 REFLECT 了：我们能信任 LLM 评判者来评估基于证据的研究代理吗？

提交意见反馈