PreScam: 一个用于从早期对话预测骗局演进的基准测试
摘要
PreScam 是一个用于建模多轮对话中骗局演进的基准测试,基于真实世界的骗局报告构建。它包含实时终止预测和诈骗者行为预测等任务,发现监督式编码器的表现优于零样本大语言模型。
查看缓存全文
缓存时间: 2026/05/15 16:26
论文页面 - PreScam:用于从早期对话预测诈骗演变的基准
来源:https://huggingface.co/papers/2605.12243
摘要
PreScam基准通过根据诈骗杀伤链对真实世界报告进行结构化,并标注心理行动和受害者回应,实现了通过多轮对话对诈骗演变进行建模。
对话式诈骗,如情感诈骗和投资诈骗,正成为一种主要的在线欺诈形式。与一次性诈骗诱饵(如虚假彩票或未付通行费消息)不同,它们通过多轮对话展开,诈骗者利用不断演变的心理技巧逐步操纵受害者。然而,现有研究主要集中在静态诈骗检测或合成诈骗上,尚未明确语言模型能否理解真实世界诈骗如何随时间演变。我们推出了PreScam,这是一个用于从早期对话建模诈骗演变的基准。基于用户提交的诈骗报告,PreScam从177,989条原始报告中过滤并结构化为11,573个对话式诈骗实例,涵盖20个诈骗类别。每个实例根据提出的诈骗杀伤链所定义的诈骗生命周期进行分层结构,并在轮次层面进一步标注了诈骗者的心理行动和受害者回应。我们在两个任务上对模型进行了基准测试:实时终止预测(估计对话是否接近终止阶段)和诈骗者行动预测(预测诈骗者的后续行动)。结果显示,表面流利性与演变建模之间存在明显差距:监督式编码器在实时终止预测上显著优于零样本LLM,而即使是强LLM,在下一个行动预测上也仅取得中等成功。综合来看,这些结果表明当前模型能够捕捉一些与诈骗相关的线索,但在追踪风险如何升级以及操纵如何在多轮中展开方面仍然存在困难。
查看arXiv页面 (https://arxiv.org/abs/2605.12243)查看PDF (https://arxiv.org/pdf/2605.12243)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12243)
在你的agent中获取此论文:
hf papers read 2605.12243
还没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型README.md中引用arxiv.org/abs/2605.12243,以从此页面链接它。
引用此论文的数据集0
没有数据集链接此论文
请在数据集README.md中引用arxiv.org/abs/2605.12243,以从此页面链接它。
引用此论文的Space0
没有Space链接此论文
请在Space README.md中引用arxiv.org/abs/2605.12243,以从此页面链接它。
包含此论文的集合0
没有集合包含此论文
请将此论文添加到集合 (https://huggingface.co/new-collection)中,以从此页面链接它。
相似文章
PreAct-Bench: 对LLM进行预测性监控的基准测试
PreAct-Bench是一个包含五个领域、1000对道德与不道德行动轨迹的基准测试,旨在评估LLM从部分轨迹中预测有害结果的能力(预测性监控)。结果表明,虽然人类表现良好,但当前的LLM仍存在困难,凸显了未来导向的风险推理的必要性。
ORACLE:从流式应用使用中的部分轨迹预判诈骗
ORACLE是一种新的智能体框架,用于从流式应用使用轨迹中早期预判诈骗。它采用自进化上下文管理器和同策略自蒸馏技术,从跨多个应用和天数的部分观察中检测诈骗。
PromptScout
PromptScout 是一款追踪品牌在各种AI模型中被提及情况的工具,帮助企业监控其可见度。
用于多轮短信钓鱼检测的扩展合成对话数据集
本文介绍了COVA-X,一个用于短信钓鱼检测的扩展合成多轮对话数据集,并表明Longformer现在优于XGBoost,从而证实了Transformer模型受益于更大的训练语料库。
面向LLM智能体训练的回顾性进度感知自我精炼
本文介绍了RePro,一个通过“先执行再反思”的展开范式训练LLM智能体自我生成进度信号的框架,在WebShop、ALFWorld和Sokoban基准测试上实现了高达12%的绝对成功率提升。