活体检测模型能否泛化到从未训练过的合成媒体生成技术?[D]
摘要
本讨论探讨了基于历史深度伪造样本训练的活体检测模型是否能泛化到新的合成媒体生成技术,质疑声称具备深度伪造检测能力的供应商的更新周期。
目前生产中的大多数活体检测系统都是基于一个威胁模型构建的,即攻击者提交静态图像或基本重放视频。当前合成媒体的生成质量与训练数据集所捕捉到的质量截然不同。我一直思考的问题是,基于历史深度伪造样本训练的模型能否泛化到训练数据汇编时尚不存在的生成技术。如果答案是否定的,那么对于声称将深度伪造检测作为核心能力的供应商来说,更新周期是怎样的?我直接向两家身份验证供应商提出了这个问题,得到的回答听起来很自信,但没有解决训练数据与当前生成质量之间的时间差。
相似文章
生成式AI与数字生态系统韧性:基于生命周期的主动式综述
本综述整合了关于生成式AI加速的对抗性合成内容主动检测的新兴研究,提出了基于生命周期的分类法,采用C5交互模型来融合机器学习和社会科学方法。
当大语言模型学会持续犯错:合成欺骗线性表示的多模型研究
本文通过微调五个Transformer模型的诚实与欺骗变体,研究大语言模型中的合成不诚实行为,发现鲁棒且域不变的不诚实表示可以通过适度的监督微调迅速固化,这对基于激活的监控具有重要意义。
Alpha 混合假说:深度伪造检测中的合成捷径
本文提出了 Alpha 混合假说,认为深度伪造检测器主要识别的是图像合成伪影,而非语义异常。文章提出了一种名为 BlenD 的方法,通过仅使用真实图像并与自混合图像进行数据增强,实现了卓越的跨数据集泛化能力。
按需生成合成训练数据时,什么才是关键?
Abliteration 推出了一种按需定制的合成训练数据工作流,可为分类器生成负样本、罕见样本和对抗性样本,包含模式、真实世界事实、标签、来源追溯,并支持导出到 Hugging Face 等平台。
AI正在实时退化
AI模型因使用递归生成的合成数据进行训练而不断退化,导致模型崩溃;多项研究强调了使用合成数据进行规模化训练的风险。