标签
本文提出了一种基于LLM鉴别的方法,用于审计合成表格数据的隐私,通过让LLM将样本分类为真实或合成,表明LLM鉴别可以作为一种实用的隐私审计信号。
LoRA-MINT 是一种用于对经 LoRA 微调的大语言模型进行成员推理测试的方法,在判断数据是否用于训练方面实现了高精度,并超越了基线方法。
本文通过分析插值路径,研究了对 Rectified Flows 的成员推断攻击,揭示了训练数据与测试数据重构之间的钟形差距,该差距在训练过程中累积。
统一综述大语言模型中的预训练数据暴露(PDE),涵盖成员推理、数据污染和安全影响,并回顾了攻击与防御方法。
本文研究了针对微调掩码扩散语言模型(MDLMs)的成员推断攻击(MIA)。提出了一种白盒攻击,利用模型在不同掩码比率下的重构损失构建46维特征向量,取得了较高的AUC分数,表明MDLMs的脆弱性超出先前预期。
本文系统性地研究了轨迹数据生成模型中的隐私风险,发现了经验隐私评估中的空白,并对代表性模型展示了成员推理攻击。
本研究论文探讨了表格扩散模型中的隐私泄露问题,量化了训练设置、合成选择以及攻击者知识对隐私风险的影响。研究发现,即使在没有完美知识或庞大资源的情况下,攻击者仍能成功实施攻击,并揭示了启发式隐私评估指标的潜在缺陷。