标签
欧盟《人工智能法案》规定,从8月起,所有AI生成的文本、图像、音频和视频都必须加水印并添加元数据标签,且需具备双层机器可检测标识。该要求适用于任何欧盟公民可访问的提供商,无论其位于何处,也包括开源模型,违规罚款高达3500万欧元。
FedOT提出了一种分块水印和潜在向量变换框架,用于联邦潜在扩散模型的所有权验证和泄露溯源,并防止水印移除攻击。
介绍RedAct,一个通过选择性编辑敏感细节同时保留审计证据来保护智能体轨迹免受程序性技能泄露的框架,并附带用于评估的CapTraceBench基准。
本文揭示了LLM水印的一个基本漏洞:当用户能够访问多个模型时,对其输出分布进行平均会抵消水印扰动,从而规避检测。作者提出了WASH方法,并通过实验证明,对3-5个模型进行平均可将检测z分数抑制在阈值以下,同时提升文本质量。
OpenAI宣布新的内容溯源功能,包括C2PA内容凭证、来自Google DeepMind的SynthID水印,以及一个公开验证工具,用于识别来自其产品的AI生成图像,旨在提高透明度和信任度。
OpenAI宣布新的内容溯源举措,包括符合C2PA标准、集成Google DeepMind的SynthID图像水印技术,以及预览一款验证工具,帮助用户识别AI生成的内容。
本文介绍了 PASA,这是一种针对大语言模型(LLM)生成文本的鲁棒性水印算法,它在语义层面利用潜在嵌入空间运作,以抵抗诸如改写(paraphrasing)之类的语义不变攻击。
SLAM 是一种新颖的白盒水印方案,利用稀疏自编码器将标记嵌入 LLM 残差流的结构几何中,在 Gemma-2 模型上实现了 100% 的检测准确率,且质量损失极小,避免了先前方法对 token 分布的偏置。
安全研究员详解如何逆转 Google 的 SynthID 隐形水印,使 AI 生成图像的媒体溯源声明失效,暴露出专有水印方案的根本缺陷。
本文提出了通过重写推理追踪来保护大型语言模型免受未授权知识蒸馏的方法,该方法在保持正确性的同时降低训练价值,并在蒸馏的学生模型中嵌入可验证的水印。该方案采用基于指令和基于梯度的重写技术来实现反蒸馏效果,同时不影响教师模型性能。
本文介绍了STELA,一个语言学感知的LLM水印框架,通过POS n-gram的句法可预测性来平衡文本质量和检测鲁棒性。该方法无需访问模型logits即可实现公开可验证的水印检测,在类型学多样化的语言(英语、中文、韩语)上展示了优异性能。
Google DeepMind 升级语音合成模型,在70多种语言中声音更自然,并为所有输出添加 SynthID 水印。
Google宣布推出SynthID Detector验证平台,该平台可以通过检测Google AI工具生成的媒体中嵌入的肉眼看不见的SynthID水印,来识别跨越图像、音频、视频和文本的AI生成内容。该平台正向早期测试者推出,计划面向记者、媒体专业人士和研究人员提供更广泛的访问权限。
OpenAI宣布推出工具和研究成果,帮助验证内容真实性,包括文本水印、元数据方法和扩展的图像检测,以及与C2PA元数据集成,用于追踪AI生成和编辑的内容。