PromptPrint：通过自然语言提示在大语言模型中实现行为生物特征识别

arXiv cs.CL 2026/06/08 04:00 论文

behavioral-biometrics authorship-attribution llm prompting security privacy stylometry

摘要

介绍PromptPrint，一项系统性研究，表明用户在LLM提示中的习惯性词汇和句法构成可学习的行为生物特征，词汇特征优于语义编码器，并揭示了独特性-一致性悖论。

arXiv:2606.06755v1 公告类型：新摘要：作者归属研究传统上侧重于长篇、表达性文本；然而，与大型语言模型（LLM）的交互通常是简短且任务驱动的提示。这引发了一个根本性问题：这些提示是否包含稳定、可识别作者且独特的信号？我们提出了PromptPrint，一项关于基于提示的身份的系统性研究，假设用户的习惯性词汇、句法和话语模式构成了可学习的行为生物特征。利用来自1034名用户的20680个真实提示，我们建立了三个关键发现。首先，词汇表示显著优于语义编码器，支持了“词汇稳定性假说”：身份主要编码在表面词汇选择中，而非抽象意图。其次，风格学特征表现出“独特性-一致性悖论”：用户在人群中高度独特，但在不同情境下行为不一致。第三，对抗性分析揭示了清晰的脆弱性谱：身份信号对微小的词汇扰动具有鲁棒性，但在语义改写下显著退化。总体而言，我们的结果展示了大规模下的强大识别性能，将基于提示的身份确立为一种可行的行为生物特征。这项工作为LLM交互中的用户建模引入了新视角，对安全和隐私具有重要意义。数据和代码将在我们的工作被接受后发布。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:20

# 通过自然语言提示实现的大语言模型行为生物特征
来源：https://arxiv.org/html/2606.06755
Shaiv Patel Kartik Narayan Vishal Patel 约翰霍普金斯大学，美国马里兰州巴尔的摩 \{spate235, knaraya4, vpatel36\}@jh\.edu

###### 摘要

传统作者归属研究主要聚焦于长篇幅、富有表现力的文本；然而，与大语言模型（LLM）的交互通常是简短且任务驱动的提示。这引发了一个根本性问题：此类提示是否包含稳定、可识别作者且具有区分性的信号？我们提出PromptPrint，一项关于基于提示的身份的系统性研究，其假设是：用户习惯性的词汇、句法和话语模式构成了一种可学习的行为生物特征。利用来自1,034位用户的20,680条真实提示，我们建立了三个关键发现。首先，词汇表征显著优于语义编码器，支持“词汇稳定性假说”：身份主要编码在表面层面的词汇选择中，而非抽象意图。其次，文体特征表现出“独特性–一致性悖论”：用户在整个群体中高度独特，但在不同语境下行为却不一致。第三，对抗分析揭示了清晰的脆弱性谱系：身份信号对轻微的词汇扰动具有鲁棒性，但在语义改写下显著退化。总体而言，我们的结果展示了大规模下的强识别性能，确立了基于提示的身份作为一种可行的行为生物特征。本工作为LLM交互中的用户建模引入了新的视角，对安全和隐私具有重要意义。数据与代码将在我们的工作被录用后发布。

## 1 引言

大语言模型（LLM）已使自然语言通过*提示*成为日常人机交互的核心界面。每个提示都是一个有意的语言行为，用户在此行为中选择如何向机器表达指令。虽然作者归属研究已确立写作天生携带身份[28 (https://arxiv.org/html/2606.06755#bib.bib2)]，但LLM提示施加了极端的语言压缩，并且本质上主要是*工具性*的——通常只有一到三句话，没有叙述性展开，且严格任务导向。传统作者归属假设有足够长度和表达意图；提示则经常违反这两个条件。尚不清楚在这些约束下文体身份信号是否持续存在，以及哪些特征空间能最好地捕获它们。

我们提出PromptPrint（图1 (https://arxiv.org/html/2606.06755#S1.F1)）并做出四项主要贡献：

1. 1. 我们将*基于提示的身份*形式化为一种新颖的软生物特征模态，并为该场景建立了首个基于标准生物特征指标（EER、\(d'\)、ROC-AUC）的评估协议。
2. 2. 我们进行了受控评估，比较了词汇、语义和文体特征空间在1,034位真实用户上的提示识别性能，使用5折交叉验证。
3. 3. 我们在文体特征中发现并描述了一个*独特性–一致性悖论*：高水平的用户间可分离性矛盾地与低水平的用户内一致性共存，并通过信号检测理论将其置于语境中。
4. 4. 我们评估了提示作为软生物特征在三种不断升级的对抗攻击下的稳定性：同义词替换、同形异义词替换和完整语义改写。我们确定完整改写严重降低了集成识别性能（Top-1=0.4290.429, EER=0.7030.703），而同义词替换影响可忽略不计（\(\Delta\)Top-1=\(-\)0.001）。这些结果表明基于提示的身份信号集中在词元表面层面，并且语义改写比轻微的词汇扰动构成了更强的挑战。

最后，由于基于提示的身份可以被动运行且无需用户明确意识，它引发了重大的隐私问题。我们将此工作定位为识别一种此前未表征的监视面，并为未来的防御性研究提供基础。

参见图注图 1：LLM提示作为软生物特征用于身份验证概述。用户的提示行为可以捕捉他们如何思考、提问和表达——形成一种可用于身份验证的稳定行为签名。
## 2 相关工作

**作者归属**。传统作者归属依赖于从字符n-gram[28 (https://arxiv.org/html/2606.06755#bib.bib2)]和功能词频率[15 (https://arxiv.org/html/2606.06755#bib.bib3)]到句法模式[22 (https://arxiv.org/html/2606.06755#bib.bib4)]和深度表征[8 (https://arxiv.org/html/2606.06755#bib.bib5)]等特征空间。最近的一篇全面综述[13 (https://arxiv.org/html/2606.06755#bib.bib31)]在LLM生成文本的背景下回顾了这些方法论，而Rivera-Soto等人[23 (https://arxiv.org/html/2606.06755#bib.bib30)]提出通过对比学习学习通用作者表征，用于跨域作者验证。然而，这些方法论从根本上依赖于分析具有足够长度的表达性文本，如作文、论坛帖子或文学散文。**行为生物特征**。传统行为生物特征在诸如击键动力学[19 (https://arxiv.org/html/2606.06755#bib.bib29),24 (https://arxiv.org/html/2606.06755#bib.bib28)]、鼠标移动[1 (https://arxiv.org/html/2606.06755#bib.bib27)]、触摸屏交互[11 (https://arxiv.org/html/2606.06755#bib.bib26)]和步态[4 (https://arxiv.org/html/2606.06755#bib.bib25)]等模态中隔离持久身份信号。这些模态与我们的框架共享一个关键属性：它们*被动*运行，无需用户明确注册手势。我们使用行为生物特征的标准验证和识别协议来评估我们的发现。然而，我们通过引入LLM提示作为一种独特的*语言*行为通道，扩展了更广泛的生物特征范式，建立了一个先前研究尚未探索的新模态。**LLM安全与隐私**。当代LLM安全研究主要集中在语义内容上，通过对抗攻击[35 (https://arxiv.org/html/2606.06755#bib.bib24)]、提示注入[21 (https://arxiv.org/html/2606.06755#bib.bib23)]和成员推断[5 (https://arxiv.org/html/2606.06755#bib.bib22)]分析漏洞。同时，通过写作风格进行重识别已在去匿名化[20 (https://arxiv.org/html/2606.06755#bib.bib21)]和浏览器指纹识别[7 (https://arxiv.org/html/2606.06755#bib.bib35)]的背景下被探索。此外，Staab等人[27 (https://arxiv.org/html/2606.06755#bib.bib20)]证明了LLM可以大规模地从用户文本中推断个人属性，突显了超越训练数据记忆的基于推断的隐私风险。我们的框架连接了这些领域：我们在提示中隔离稳定的风格行为作为持久的身份通道，独立于查询的语义意图或负载进行操作。**提示作为独特的行为信号**。据我们所知，尚无先前工作将提示行为作为一种可测量的行为生物特征进行研究。最相关的研究方向是将文体分析应用于短社交媒体文本以进行作者验证[30 (https://arxiv.org/html/2606.06755#bib.bib19)],[32 (https://arxiv.org/html/2606.06755#bib.bib18)]。然而，社交媒体内容仍然是根本性的表达性和自我启动的。相反，提示是反应性的、任务导向的约束。

## 3 数据集

我们使用WildChat-1M[34 (https://arxiv.org/html/2606.06755#bib.bib1)]，一个包含超过一百万次真实ChatGPT对话的公开语料库，通过代理接口收集，用户通过SHA-256哈希IP地址（hash\_ip）区分。这些交互是在野外捕获的，用户未意识到后续分析，因此数据集保留了真实的提示习惯，避免了实验室约束数据集固有的行为人为性。该语料库以开放许可公开发布。

### 3.1 提取协议

为了隔离用户的基础身份信号，我们仅从每次对话中提取用户的第一个发言轮次：在LLM引导的后续回复之前提供的初始、自主指令。这种方法论约束对于评估行为稳定性至关重要，因为多轮对话中的用户经常通过无意识地模仿模型的词汇和结构语域来表现出语言顺应。这种适应会污染底层的文体指纹。随后，我们对隔离的提示应用四项质量筛选：

- • 语言：仅英语（language == 'English'）
- • *最小长度*：\(\ge\)10个字符
- • *最大长度*：\(\le\)2,000个字符
- • *内容*：排除仅包含URL和仅包含代码块的提示

拥有少于20个合格提示的用户被排除。保留的用户按总提示数排序，评估前1,500名；恰好有1,034名用户满足严格的20个提示阈值且完全合格。

### 3.2 统计数据

最终评估数据集包含20,680条提示，均匀分布在1,034名用户中，每用户20条提示。提示长度分布：平均值187个字符，标准差312，中位数98个字符，这定量反映了真实世界提示行为的高度压缩、任务导向性质。来自WildChat-1M数据集的示例提示如图2所示。

参见图注图 2:WildChat-1M数据集中的示例提示。
### 3.3 伦理合规性

WildChat-1M已明确发布用于研究应用。所有用户身份在源头上经过加密哈希处理，确保不保留或处理任何个人身份信息（PII）。由于本研究涉及对匿名化公共数据的回顾性分析，不涉及直接的人类受试者交互，根据标准指南免于机构审查委员会（IRB）批准。我们注意到，WildChat-1M基于哈希IP的用户代理是数据集层面的约束，而非方法论选择。来自共享和动态IP的标签噪声使得识别更加困难，因此我们的指标代表了真实性能的保守下界；具有经过验证的用户身份的数据集会提供更强的信号检测。我们将在第6节 (https://arxiv.org/html/2606.06755#S6) 中讨论将提示建立为软生物特征通道的更广泛伦理影响。

## 4 PromptPrint：建模与推理

PromptPrint行为嵌入 \(\mathbf{z}=[z_{1},z_{2},\ldots,z_{d}]\) 表示从用户提示中提取的特征向量，在给定的表征空间（词汇、语义、文体）下，用于构建每用户的原型向量以进行识别和验证。

### 4.1 特征

给定用户提示后，我们研究三种不同的特征表征，以确定哪些信号能可靠地捕获稳定的行为身份。

**词汇（TF-IDF）特征**。我们使用一元和二元词袋表征，采用次线性词频缩放（\(\log(1+\mathrm{tf})\)），其中 \(\mathrm{tf}\) 表示原始词频，对数变换减弱高频词的影响。特征受限于最小文档频率2和词汇量上限30,000个特征[25 (https://arxiv.org/html/2606.06755#bib.bib33)]。该空间隔离了用户生成行为中独特的特定词汇和短语习惯。**语义（SBERT）特征**。我们使用来自 `intfloat/e5-base`[31 (https://arxiv.org/html/2606.06755#bib.bib36)] 的768维、L2归一化句子嵌入。E5通过在大规模文本对上使用对比学习进行训练，用于通用密集检索。该空间编码了提示的整体语义意图，独立于具体的表面措辞。我们选择 `e5-base`，因为它在初步编码器比较中表现出稳定的性能，并且其计算开销适合大规模5折交叉验证；更大的编码器可能会增强语义基线，但不会改变词汇表征从根本上优于语义编码器这一核心发现。**文体特征**。遵循既定的作者归属惯例[28 (https://arxiv.org/html/2606.06755#bib.bib2)]，我们提取十个人工构造特征：平均词长、词汇丰富度（型例比）、标点符号比例、停用词比例、名词/动词/形容词比例（通过使用NLTK[3 (https://arxiv.org/html/2606.06755#bib.bib17)] 的宾州树库词性标注）、平均句长、大写字母比例和数字比例。这量化了严格独立于语义内容的表层写作模式。

### 4.2 模型与分类器

我们训练六个系统进行比较评估。所有训练和基准测试均在NVIDIA A100 Tensor Core GPU上执行。

**(TF-IDF)+LR**。TF-IDF向量化器与多项式逻辑回归分类器配对，使用L-BFGS求解器、\(C=1.0\) 和平衡类别权重。

**SBERT-NN**。一个冻结的SBERT编码器（768维）馈入三层MLP。该架构包括一个输入投影层（768→384）、一个残差块（384→384）、压缩层（384→192→96）和一个最终分类头（96→\(N\)）。编码器严格保持冻结，以防止在有限的每用户训练集上出现灾难性遗忘[18 (https://arxiv.org/html/2606.06755#bib.bib16)]。训练使用标签平滑交叉熵（\(\varepsilon=0.1\)）、AdamW优化器[16 (https://arxiv.org/html/2606.06755#bib.bib15)]（\(\eta=1e-4\)，权重衰减=0.01）、余弦退火学习率调度和早停（耐心值=10）。

**Stylo-NN**。使用相同的MLP架构，输入投影调整为10→384以处理10维文体特征向量，专门隔离表层结构习惯。

**Combined-NN**。将SBERT和文体特征拼接（778维）后馈入标准MLP，直接测试特征级融合能力。

**Ensemble**。一种分数级融合机制，定义为：

\[
P_{\text{ens}} = \alpha \cdot P_{\text{SBERT}} + (1-\alpha) \cdot P_{\text{TF-IDF}}
\]
(1)

其中 \(P_{\text{SBERT}}\) 和 \(P_{\text{TF-IDF}}\) 是每个组件产生的类别概率分布，\(P_{\text{ens}}\) 是融合后的输出分布，\(\alpha \in \{0.0, 0.1, \ldots, 1.0\}\) 是插值权重，通过扫描以确定最优融合比例。

**CharNgram+SVM**。字符n-gram特征（2–5）[28 (https://arxiv.org/html/2606.06755#bib.bib2)] 与LinearSVC[9 (https://arxiv.org/html/2606.06755#bib.bib34)] 配对，作为标准作者归属基线。

### 4.3 评估协议

**数据划分**。我们使用5折交叉验证。在每一折中，群体被划分为可见用户（80%，约828名用户）和不可见用户（20%，约206名用户）。可见用户每人贡献16个训练样本、2个验证样本和2个测试样本。不可见用户构成验证评估中严格的冒名顶替者集合。所有划分均经过计算验证，确保可见用户和不可见用户群之间没有用户重叠。

**识别 me**

PromptPrint：通过自然语言提示在大语言模型中实现行为生物特征识别

相似文章

提示复杂性：大型语言模型中文本与行为的最短提示

从文字到控件：实现可控的LLM生成

通过风格引导提示解释风格表示

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

大语言模型可通过正确提示更好地捕捉人类判断

提交意见反馈