用于多轮短信钓鱼检测的扩展合成对话数据集
摘要
本文介绍了COVA-X,一个用于短信钓鱼检测的扩展合成多轮对话数据集,并表明Longformer现在优于XGBoost,从而证实了Transformer模型受益于更大的训练语料库。
arXiv:2606.06879v1 公告类型:新
摘要:我们之前的工作介绍了COVA,一个合成的多轮对话短信钓鱼数据集,包含3,201个标记对话,为八种模型建立了基准检测基准。尽管采用TF-IDF特征的XGBoost达到了最佳性能,准确率为72.5%,宏F1为0.691,但Transformer模型表现不佳,原因归因于输入截断和训练数据不足。我们提出了COVA-X,一个扩展的数据集,包含10,985个对话,涵盖八种针对老年人的诈骗类别,通过改进的生成流程生成,解决了第一次迭代中的污染、标签不匹配、阶段指令泄漏和提示设计失败问题。在扩展数据集上重新训练所有分类器,得到了本工作的核心发现:Longformer现在在所有评估指标上超越了XGBoost,准确率达到79.71%,宏F1达到0.7786,而XGBoost分别为78.43%和0.7563。这直接证实了Transformer模型需要更大的对话语料库来发挥其上下文优势。我们还记录了质量生命周期,包括标签修正率从49.8%提高到3.9%的12.7$\times$改进,将虚拟绑架人工痕迹率从67.1%降低到46.5%的架构干预,以及按诈骗类型的结果分析,显示诈骗类别以机制一致的方式调节结果。清理前后的敏感性分析证实,数据集优化在所有三种分类器架构中恢复了真正的标签相关信号。
查看缓存全文
缓存时间: 2026/06/08 09:21
# 面向多轮短信诈骗检测的扩展合成对话数据集 来源:https://arxiv.org/html/2606.06879 ###### 摘要 我们此前的工作介绍了COVA,一个合成生成的多轮对话短信诈骗数据集,包含3,201条标注对话,建立了八种模型上的基准检测性能。尽管XGBoost结合TF-IDF特征取得了最佳性能(准确率72.5%,宏F1 0.691),Transformer模型表现不佳——归因于输入截断和训练数据不足。我们现提出COVA-X,一个扩展数据集,包含10,985条对话,涵盖八类针对老年人的诈骗类别,采用改进的生成流程,解决了第一版中的污染、标签不匹配、舞台指示渗漏和提示设计失败等问题。在扩展数据集上重新训练所有分类器,得出本工作的核心发现:Longformer在所有评估指标上首次超越XGBoost(准确率79.71%,宏F1 0.7786 vs. 78.43%和0.7563),直接证实Transformer模型需要更大的对话语料库才能发挥其上下文优势。此外,我们还记录了一个质量生命周期,包括标签校正率提升12.7倍(3.9% vs. 49.8%),通过架构干预降低虚拟绑架伪影率(67.1%→46.5%),以及按诈骗类型的结果分析,表明诈骗类别以机制一致的方式调节结果。预处理/后清理敏感性分析证实,数据集提炼在所有三种分类器架构中恢复了真实的标签相关信号。 ## I 引言 针对老年人的对话式社会工程攻击是网络安全领域中一个日益增长但未得到充分应对的威胁。与单条消息的钓鱼攻击不同,这类攻击在多轮对话中展开,逐步建立信任,然后窃取财务或个人信息[2,3]。由于隐私和伦理约束,此类交互的真实世界数据非常稀缺,这促使人们使用合成数据生成方法。 我们此前引入了COVA[1],这是首个公开可用的多轮对话短信诈骗数据集,包含3,201条标注对话,涵盖八类针对老年人的诈骗类别。该工作建立了八个基线分类器,并发现了一个关键局限:尽管Transformer模型(DistilBERT和Longformer)具有优秀的上下文语言理解能力,但其表现却不如结合TF-IDF特征的XGBoost。我们将这一差距归因于两个因素:(1)DistilBERT中输入截断丢弃了结果关键的最后几轮对话;(2)训练数据不足以进行有效的Transformer微调。我们明确预测“Transformer模型可能会受益于更大的训练语料库(>5,000条对话)”。 本文介绍COVA-X,将COVA数据集扩展到10,985条对话(3.43倍增长),111按诈骗类型的生成目标合计约为11,400条;实际产出数量10,985条反映了正常的生成器重试开销和最小对话轮次下限的丢弃。完整的数据集文档(包括版本历史、按诈骗类型计数和已知限制)在COVA-X数据表中提供,该数据表作为数据集附带工件发布。并报告在扩展数据集上重新训练所有分类器的结果。核心发现证实了第一篇论文的假设:Longformer首次在所有指标上超越XGBoost,在3分类结果预测任务上达到79.71%的准确率和0.7786的宏F1。除了模型性能提升外,本文还呈现了全面的数据集质量生命周期分析。这包括在数据集扩展过程中发现并纠正的流程故障、评估虚拟绑架伪影减少的架构干预的三点证据链、标签校正率的改进、每个流程阶段对数据集完整性的定量贡献,以及预处理/后清理分类器敏感性分析,表明清理改善了三种分类器架构的标签相关信号。我们认为,对这些迭代挑战的透明记录本身构成了方法论贡献,为未来合成数据集构建工作提供了实用路线图。 本文的主要贡献如下: - • 我们将COVA数据集从3,201条对话扩展到10,985条,涵盖八类针对老年人的诈骗类别,每类有五个受害者和攻击者档案。 - • 我们记录并量化了完整的质量生命周期流程,包括污染扫描、舞台指示剥离、自动重标号,以及针对虚拟绑架生成的三角色架构干预,实现了3.9%的标签校正率(第一版为49.8%),并将虚拟绑架伪影率从67.1%降至46.5%。 - • 我们报告了按诈骗类型的结果分布分析,表明诈骗类型特征以机制一致的方式调节结果:虚拟绑架因情感压力框架而具有最高的“成功诈骗”率(33%);祖父母诈骗具有最高的“验证尝试”率(63%),与验证回拨脚本一致;医疗保险和银行诈骗的快速拒绝群体较大,反映出公众意识。 - • 我们重新训练了所有分类器,并证实Longformer在扩展数据集上的各项指标均超越XGBoost,验证了第一篇论文中关于数据量的假设。预处理/后清理敏感性分析表明,三种架构在清理后的数据集上均有改善,证明清理影响了真实的标签相关信号。 - • 我们描述了Qwen 2.5 14B在持续情感压力下的生成行为,记录了五个实例的显式提示指令覆盖模式,涵盖不同指令类型(结构标签采用、受害者档案遵循、称谓参数化、姓名标识规则、对话终止指令),这为未来工作中提出的模型比较研究提供了动机。 ## II 相关工作 ### II-A 社会工程攻击检测 社会工程攻击的检测已在多种模态下得到研究。在短信领域,Seo等人[4]提出了抵抗文本规避的终端诈骗分类器,而Patra等人[5]开发了结合机器学习与文本分析的预测模型。这些方法针对单条消息分类,未捕捉多轮动态。 Derakhshan等人[6]引入了ASsET,一种基于诈骗签名的电话攻击检测系统。Wood等人[7]分析了来自YouTube的诱骗诈骗电话,大规模识别诈骗阶段和脚本。Jain等人[8]证明,对于单条短信诈骗检测,BERT优于TF-IDF,这一结果激发了我们的研究兴趣:在足够的数据支持下,这种优势能否迁移到对话检测。 最近的工作已将检测扩展到传统文本分类之外。Park等人[16]提出了一种基于LLM的语音钓鱼检测框架,结合案例信息转录生成和领域专家提示工程,通过合成增强在韩语语音钓鱼数据上实现了显著改进的分类准确率。他们的工作确立了合成转录生成作为解决钓鱼数据稀缺性的可行策略。密切相关的是,Li等人[15]研究了LLM生成的钓鱼内容的对抗维度,证明攻击者可以利用LLM构建能够逃避基于ML检测器的对抗性转录。他们的结果对我们自身的威胁模型构建具有启示意义:相同的生成能力既能用于防御性数据集构建,也能用于对抗性转录合成。Gressel等人[17]专门针对浪漫诈骗类别,考察了LLM在检测情感操纵型诈骗对话中的作用,该类别与我们的COVA-X浪漫子集(最大单一类别,1,934条对话)特别相关。对于实时部署,AI-in-the-Loop框架[18]提出了基于部分转录的联邦化隐私保护诈骗对话分类,这为我们第七节中提出的增量分类方向提供了参考。 ### II-B 合成数据与多智能体模拟 Basta等人[9]提出了“Bot Wars”框架,使用对抗性LLM作为诈骗诱饵,并基于179小时的人类交互进行了验证。Kumarage等人[10]提出了SE-VSim,一个基于LLM代理的框架,用于模拟具有不同受害者人格特征的多轮对话中的社会工程攻击。Spokoyny等人[11]开发了CHATTERBOX,用于自动长期与在线诈骗者周旋。这些框架与我们的工作共享多代理设计,但在部署姿态上有所不同:先前的工作侧重于与活跃诈骗者的对抗性周旋,而COVA-X则将多代理模拟作为下游分类器训练的数据集构建方法论。 与我们提示工程方法相关的一个实际问题是所谓的指令调优LLM中的显著性偏差效应:将禁止模式列举为负面示例反而可能增加其产生率,这一现象在一般指令遵循[19,20]和否定特定生成上下文[21]中均有记载。我们在虚拟绑架攻击者提示迭代中直接观察到了这种效应(第六节,提示工程中的显著性偏差小节)。 ### II-C 文献中的空白 COVA-X扩展解决了我们先前工作及更广泛文献中识别的空白:(1)有限的标注数据规模限制了Transformer评估;(2)单一的受害者档案限制了行为多样性;(3)未记录的流程质量生命周期使可重现性困难;(4)对合成数据集构建过程中遇到的生成模型能力限制缺乏表征。Herrera等人[12]指出,老年人仍然不成比例地容易受到AI增强诈骗的影响,这强调了大规模、多类别老年人欺诈数据集的重要性。 ## III 数据集扩展方法论 ### III-A 生成基础设施 COVA-X扩展使用了与第一版数据集相同的核心框架:两个独立的LLM智能体(攻击者和受害者)通过本地GPU硬件上的Qwen 2.5 14B(通过Ollama)交换对话轮次,并针对虚拟绑架进行了三角色扩展(第六节)。所有生成均使用本地推理而非商业API访问,原因有三:对模拟诈骗对话的研究自由、批量生成的零边际成本、以及通过Ollama固定模型权重的可重现性。 扩展运行分布在两台工作站上: - • 工作站A:NVIDIA RTX 4080 Super 16GB GDDR6X——主要生成和分类器训练机器;用于浪漫、政府冒充、医疗保险和虚拟绑架。 - • 工作站B:NVIDIA RTX 5060 Ti 16GB GDDR7(Blackwell架构)——辅助生成机器;用于祖父母、银行、彩票和投资。 两台工作站均运行Qwen 2.5 14B,上下文长度为16k。采样参数:攻击者和受害者轮次温度为0.8,虚拟绑架三角色人质话语的温度为0.7,上限60个token(token上限强制人质语音的3–12字简洁性约束)。这些设置即使在相同种子下也会在重新生成运行之间产生随机变化;因此不保证确切对话内容的可重现性,但分布特征(按诈骗类型计数、结果分布、平均轮次长度、质量标志率)在采样噪声范围内是可重现的。不足10轮的对话被视为发展不充分而被丢弃(总体丢弃率约2%,虚拟绑架约为25–30%)。 ### III-B 档案扩展 COVA[1]每类诈骗仅使用一个受害者档案。COVA-X引入了每类五个档案:两个结果固定档案(Carol固定为快速拒绝,George固定为诈骗检测)和三个覆盖其余结果的通用池档案。这种设计提供了足够的多样性,同时每个档案保持足够的对话数量以用于分类器信号强度。档案固定通过生成器中的结果目标字典实现,并在系统提示中为固定结果目标写入硬性停止指令。 ### III-C 数据集目标与分布 按诈骗类型的生成目标总计约为11,400条对话,涵盖八类诈骗类别。在正常的生成器重试开销和最小对话轮次下限丢弃之后,实际产出为10,985条对话。图1显示了按诈骗类型的产出计数;COVA-X数据表详细记录了按诈骗类型的生成目标以及产出与目标的对比。 17.6% 浪漫 14.1% 政府冒充 13.6% 医疗保险 12.5% 祖父母 12.4% 银行冒充 12.1% 虚拟绑架 8.9% 投资 8.9% 彩票 图1: COVA-X按诈骗类型分布(n=10,985)。 ### III-D 提示工程改进 基于第一版数据集中观察到的失败,在扩展中引入了若干提示层面的修复: - • 姓名标识锁定:在所有攻击者和受害者提示中添加零容忍姓名规则,防止跨诈骗类型的角色姓名混淆。 - • 绝对输出规则:在运行时注入受害者提示,以抑制舞台指示渗漏。对于低情感压力诈骗类型最为有效;对于虚拟绑架和浪漫,需要额外的架构和后处理措施(第四节)。 - • 祖父母开场白污染修复:重写了政府冒充、医疗保险和虚拟绑架的攻击者提示,以消除“嗨,爷爷/奶奶”开场白,这些开场白在[1]中感染了所有非祖父母类型。修复前运行的遗留污染在第四节中记录。 - • 流程错误修复——提示加载:load_prompt_template()中一个硬编码的_v1.md后缀在第一个数据集中静默阻止了更新提示的加载。通过针对所有提示版本的全局模式匹配进行了修复。 ### III-E 按诈骗类型结果分布 A propert
相似文章
When2Speak: 面向大语言模型的多方对话时序参与与话轮转换数据集
When2Speak是一个合成数据集及流程,用于训练LLM在多方对话中决定何时发言。在该数据集上微调显著改善了话轮转换,强化学习将漏干预率从50%降至约20%。
SeDT: Sentence-Transformer Decision-Transformer条件化用于多轮对话可靠性
本文介绍了SeDT,一种无需训练、推理时的方法,通过用来自三种信号的累积相关性分数标注对话历史,提高多轮对话中LLM的可靠性,在Lost-in-Conversation基准测试上实现了高达+37.7%的性能提升。
MTR-Suite:一个用于评估和合成对话检索基准的框架
介绍MTR-Suite,一个用于评估和合成对话检索基准的统一框架,具备基于LLM的审计器、用于成本效益对话生成的多智能体流水线,以及一个具有高区分度的基准。
SMAC-Talk:面向大语言模型的星际争霸多智能体挑战自然语言扩展
SMAC-Talk 是一个新的基准测试,在星际争霸多智能体挑战的基础上进行扩展,旨在评估基于 LLM 的智能体在具有自然语言通信的协作多智能体环境中的表现。该基准包含带有欺骗性通信者的场景,并使用 Qwen3.5 系列模型对智能体进行基准测试,以研究推理能力、记忆机制和模型规模对协调效果的影响。
PreScam: 一个用于从早期对话预测骗局演进的基准测试
PreScam 是一个用于建模多轮对话中骗局演进的基准测试,基于真实世界的骗局报告构建。它包含实时终止预测和诈骗者行为预测等任务,发现监督式编码器的表现优于零样本大语言模型。