深度学习中来自私有训练数据的半监督知识迁移

OpenAI Blog 论文

摘要

OpenAI 提出了 PATE(Private Aggregation of Teacher Ensembles),这是一种隐私保护方法,通过在多个教师模型的噪声输出上训练学生模型,这些教师模型在互不相交的数据集上进行训练,在不暴露敏感训练数据的情况下提供强大的差分隐私保证。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:56

# 从私有训练数据进行深度学习的半监督知识转移 来源:https://openai.com/index/semi-supervised-knowledge-transfer-for-deep-learning-from-private-training-data/ ## 摘要 某些机器学习应用涉及敏感的训练数据,例如临床试验中患者的医疗历史。模型可能会无意中隐式地存储其部分训练数据;因此,对模型的仔细分析可能会泄露敏感信息。 为了解决这个问题,我们演示了一种通常适用的方法来为训练数据提供强隐私保证:教师集成私有聚合(PATE)。该方法以黑盒方式组合了多个用不相交数据集训练的模型,例如来自不同用户子集的记录。由于这些模型直接依赖敏感数据,因此不会发布,而是用作"学生"模型的"教师"。学生学习预测由所有教师进行嘈杂投票选出的输出,无法直接访问单个教师、底层数据或参数。学生的隐私特性既可以直观理解(因为没有单个教师,因此没有单个数据集支配学生的训练),也可以根据差分隐私正式理解。即使对手不仅可以查询学生,还可以检查其内部工作原理,这些特性也同样适用。 与之前的工作相比,该方法对教师的训练方式施加的假设较弱:它适用于任何模型,包括DNNs等非凸模型。得益于改进的隐私分析和半监督学习,我们在MNIST和SVHN上达到了最先进的隐私/效用权衡。

相似文章

迈向LLM的下一个前沿:私有数据训练——联邦微调的跨域基准

arXiv cs.LG

本文提出了一个在私有数据上对大型语言模型进行联邦微调的跨域基准,评估了LoRA、QLoRA和IA3策略在医疗和金融数据集上的表现。结果表明,联邦微调接近集中式训练的性能,并优于孤立学习,证明了在数据无法共享时通过联邦微调适配LLM的可行性。

联邦学习

ML at Berkeley

本文解释了联邦学习作为一种保护隐私的机器学习技术的概念,该技术通过在本地设备而非中央服务器上训练模型来实现。文章详细描述了加密参数更新和聚合的过程,旨在降低数据泄露风险,同时保持模型性能。

同策略蒸馏(5分钟阅读)

TLDR AI

本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。

在日用设备上启用隐私保护型 AI 训练

MIT News — Artificial Intelligence

麻省理工学院研究人员开发了一种名为 FTTE 的新框架,将隐私保护型联邦学习的速度提升了 81%,使得在智能手表和传感器等资源受限的边缘设备上高效进行 AI 训练成为可能。