深度学习中来自私有训练数据的半监督知识迁移

OpenAI Blog 2016/10/18 07:00 论文

摘要

OpenAI 提出了 PATE（Private Aggregation of Teacher Ensembles），这是一种隐私保护方法，通过在多个教师模型的噪声输出上训练学生模型，这些教师模型在互不相交的数据集上进行训练，在不暴露敏感训练数据的情况下提供强大的差分隐私保证。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:56

# 从私有训练数据进行深度学习的半监督知识转移来源：https://openai.com/index/semi-supervised-knowledge-transfer-for-deep-learning-from-private-training-data/ ## 摘要某些机器学习应用涉及敏感的训练数据，例如临床试验中患者的医疗历史。模型可能会无意中隐式地存储其部分训练数据；因此，对模型的仔细分析可能会泄露敏感信息。为了解决这个问题，我们演示了一种通常适用的方法来为训练数据提供强隐私保证：教师集成私有聚合（PATE）。该方法以黑盒方式组合了多个用不相交数据集训练的模型，例如来自不同用户子集的记录。由于这些模型直接依赖敏感数据，因此不会发布，而是用作"学生"模型的"教师"。学生学习预测由所有教师进行嘈杂投票选出的输出，无法直接访问单个教师、底层数据或参数。学生的隐私特性既可以直观理解（因为没有单个教师，因此没有单个数据集支配学生的训练），也可以根据差分隐私正式理解。即使对手不仅可以查询学生，还可以检查其内部工作原理，这些特性也同样适用。与之前的工作相比，该方法对教师的训练方式施加的假设较弱：它适用于任何模型，包括DNNs等非凸模型。得益于改进的隐私分析和半监督学习，我们在MNIST和SVHN上达到了最先进的隐私/效用权衡。

深度学习中来自私有训练数据的半监督知识迁移

相似文章

利用非对称数据进行遗忘：通过公共数据改善遗忘-效用权衡

迈向LLM的下一个前沿：私有数据训练——联邦微调的跨域基准

联邦学习

同策略蒸馏（5分钟阅读）

在日用设备上启用隐私保护型 AI 训练

提交意见反馈