海报:探索基于音频检测土耳其电话诈骗的极限
摘要
本文介绍了首个公开的多模态数据集,包含100个土耳其诈骗和良性电话通话,评估了七种大语言模型在原始音频、ASR转录和人工纠正转录下的表现。结果表明,基于转录的输入优于直接音频,凸显了在低资源语言中进行包容性AI安全研究的必要性。
查看缓存全文
缓存时间: 2026/06/24 07:47
# 海报:探究基于音频的土耳其电话诈骗检测极限 来源:https://arxiv.org/html/2606.24523 ###### 摘要 诈骗电话在全球范围内侵害弱势群体,然而相关检测研究几乎完全集中在英语及其他高资源语言上。在土耳其语等低资源环境下,检测尤为困难,因为标注数据稀缺且技术防护手段有限。本研究首次引入包含100对对齐音频-文本对的公开多模态诈骗与正常对话数据集,探究大型语言模型(LLM)如何助力土耳其语的诈骗检测。我们评估了来自三个模型系列的七个LLM:Gemini 2.5(Flash、Flash-Lite、Pro)、GPT-4o和Qwen(Max、Plus、Turbo),并在三种输入条件下进行测试:原始音频、自动语音转文本结果以及经母语者校正的文本。我们的结果表明,基于文本的输入始终优于直接音频处理,而人工校正与未校正的文本表现相当。通过聚焦低资源语言和现实威胁,本研究凸显了开展文化与语言包容性AI安全研究以及构建更强健多模态欺诈防范系统的迫切需求。 ## 1 引言 电话诈骗是增长最快的欺诈形式之一,每年在全球范围内侵害数百万受害者。其影响不仅是经济上的,更是心理上的——诈骗者利用信任、权威和紧迫感,使检测变得困难。尽管政府和行业已投入反制措施,但大多数技术解决方案仍局限于英语或其他高资源语言,导致许多群体缺乏有效保护。 与此同时,诈骗检测研究一直由基于文本的自然语言处理(NLP)主导。这些方法假设词汇信息足以揭示意图,但实际上诈骗者的策略往往依赖情感和韵律线索,如语调、重音或元音延长,这些在语音转化为文本时会减弱或丢失。弥补这一差距需要整合音频和文本两种模态的方法,尤其是在低资源语言中。 土耳其语本身带来了独特挑战:尽管有数百万人使用,但在AI研究中代表性不足。由于其黏着形态以及从正式语到口语的巨大差异,土耳其语音识别(ASR)面临困难\[2 (https://arxiv.org/html/2606.24523#bib.bib2)\]。 为了解决这些问题,我们引入了第一个公开的土耳其语诈骗与正常通话多模态数据集,包含100对对齐的音频和文本对。我们在三种输入条件下评估LLM,如图1 (https://arxiv.org/html/2606.24523#S4.F1)所示,以考察转录质量与模型安全系统如何影响性能。 ## 2 现有解决方案 LLM在基于文本的诈骗检测中展现出潜力,研究表明它们能够识别电子邮件中的钓鱼迹象,但针对电话通话文本的研究揭示了召回率低和模型幻觉等挑战。 先前的工作主要集中在英语或中文上,且通常依赖经过编辑的文本和纯文本输入。例如,Shen等人\[1 (https://arxiv.org/html/2606.24523#bib.bib1)\]和Zhao等人\[3 (https://arxiv.org/html/2606.24523#bib.bib3)\]主要探索了中文数据集,未考虑多模态信号。这些方法既忽视了诈骗的多模态特性,也忽略了资源匮乏语言的现实,而这对于更具包容性的AI安全研究至关重要。 ## 3 数据集 该数据集包含100个土耳其语电话录音,来自公开可用的YouTube视频,其中包括50个诈骗电话和50个正常通话,所有音频均标准化为16 kHz单声道。诈骗电话来自上传者明确标注为诈骗电话的YouTube视频,并由一名母语为土耳其语的人进一步审查以确认内容的欺诈性质。这些诈骗电话涵盖了在土耳其观察到的一系列策略,包括金融和身份欺诈(如银行、被盗卡/身份证、政府账单、充值积分、支付问题、保险和奖品诈骗)以及服务和就业相关欺诈。 ## 4 所提方法 音频文件→LLM→预测方法1(原始音频)音频文件→ASR(Scribe V1)→文本→LLM→预测方法2(未检查文本)音频文件→ASR(Scribe V1)→文本→母语者审查→LLM→预测方法3(检查后文本)图1:本研究中评估的三种输入条件。我们提出的方法是方法1,其中原始音频直接转发给多模态LLM进行诈骗检测,无需任何预处理。方法2和方法3作为使用基于文本输入的对比基线。在方法2中,音频首先通过Scribe V1 ASR系统转换为文本,然后未经校正直接传给LLM。在方法3中,ASR转录文本在传给LLM之前由流利的土耳其语使用者进一步审查和校正。 我们对每个100个通话在三种输入条件下独立进行评估,样本之间不进行微调或提示优化。这确保了结果反映的是标准行为而非调优后的流程。 ## 5 结果与讨论 我们的分析揭示了不同模态之间的显著性能模式,如表I所示。在所有七个模型中,基于文本的输入优于原始音频,检查后文本的平均F1得分为0.995,未校正文本为0.992,而音频为0.969。从文本到音频的平均下降为0.026个F1点,而检查后文本与未检查文本平均仅相差0.008,这表明一旦有了转录文本,ASR质量的影响很小。 所有模型系列在音频条件下反复出现的失败模式是拒绝处理含有脏话或敏感主题(如冒充警察或敲诈)的通话。由于现实世界的诈骗经常依赖此类恐吓策略,这些拒绝被计入假阴性,并构成了音频性能差距的主要部分。相比之下,相同的文本内容较不容易触发内容过滤器,这解释了文本结果的更强表现。 音频失败指向两个可能原因。首先,内容过滤拒绝由原始语音信号(喊叫、脏话、攻击性语气)触发,而这在文本形式下不会引起相同反应。其次,一些模型可能难以解析真实通话录音中常见的重叠语音和背景噪音。此外,在分析Qwen Audio流程时,我们观察到可能源自训练数据中字幕视频的幻觉伪影,这些伪影可能注入误导性标记,从而在低资源环境下扭曲下游分类。 表I:不同LLM处理三种数据类型的模型性能 ## 6 结论 本研究表明,在所评估的所有LLM中,基于文本的输入始终优于原始音频,用于土耳其语诈骗通话检测时,检查后文本和未检查文本的平均F1得分为0.99,而音频为0.97。至关重要的是,人工校正与未校正的转录文本表现几乎相同,这表明在检测任务中母语者审查的成本可能不合理。 音频性能差距主要由内容过滤器拒绝处理包含脏话、恐吓和冒充警察的通话所致,而这些正是真实诈骗的特点。这揭示了模型安全机制与对抗性检测任务中实际效用之间的根本矛盾。 本研究的几个局限性值得考虑。该数据集虽然是土耳其语诈骗检测领域的首个此类数据集,但仅包含100个通话,较高的F1得分可能部分反映了当前在数据规模和多样性方面的范围。数据集伪影,如不一致的音频质量和上传者标注惯例,也可能影响了模型性能。扩展数据集并评估更广泛现实条件下的鲁棒性仍然是未来工作的重要方向。 ## 参考文献 - \[1\] Z. Shen, S. Yan, Y. Zhang, X. Luo, G. Ngai, and E. Y. Fu, “It warned me just at the right moment: Exploring LLM-based real-time detection of phone scams,” in *Proc. Extended Abstracts CHI Conf. Human Factors in Computing Systems*, 2025, pp. 1–7. - \[2\] K. Tohma and Y. Kutlu, “Challenges encountered in Turkish natural language processing studies,” *Natural and Engineering Sciences*, vol. 5, no. 3, pp. 204–211, 2020. - \[3\] Q. Zhao, K. Chen, T. Li, Y. Yang, and X. Wang, “Detecting telecommunication fraud by understanding the contents of a call,” *Cybersecurity*, vol. 1, no. 1, p. 8, 2018.
相似文章
大型音频语言模型综述:泛化、可信度与展望
一篇全面综述,回顾了大型音频语言模型(LALMs)的可信度挑战,包括跨模态越狱和声学后门等漏洞,并提出了纵深防御路线图。
基于文本与音频分类器的学生异常言语响应检测
# 基于文本与音频分类器的学生异常言语响应检测 来源:[https://arxiv.org/html/2604.16717](https://arxiv.org/html/2604.16717) \(论文将于2026年4月10日在国家教育测量委员会会议上发表\) ###### 摘要 本文旨在填补自动言语响应评分(AVRS)使用中的一项关键安全空白。我们提出了一种新颖的混合框架,用于识别存在心理困扰的学生,该框架结合了文本分类器与音频分类器;其中文本分类器经过训练以根据内容检测响
商业ASR系统在代码切换语音上的基准测试:阿拉伯语、波斯语和德语
本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。
课堂环境下的多模态说话人识别
本文评估了一种用于K-12课堂说话人识别的多模态框架,通过将声学嵌入(ECAPA-TDNN)与基于LLM的转录本语义上下文相结合,将整体准确率从39%提升至50.3%,对于较长话语,准确率从64.9%提升至76.9%。
用于多轮短信钓鱼检测的扩展合成对话数据集
本文介绍了COVA-X,一个用于短信钓鱼检测的扩展合成多轮对话数据集,并表明Longformer现在优于XGBoost,从而证实了Transformer模型受益于更大的训练语料库。