半监督文本分类的对抗训练方法

OpenAI Blog 2016/05/25 07:00 论文

摘要

本文提出了针对文本分类的对抗训练和虚拟对抗训练方法，通过在RNN中对词嵌入而非原始输入施加扰动来实现。该方法在半监督和监督文本分类基准上取得了最先进的结果，同时降低了过拟合。

暂无内容

查看缓存全文

缓存时间: 2026/04/20 14:45

# 半监督文本分类的对抗训练方法来源: https://openai.com/index/adversarial-training-methods-for-semi-supervised-text-classification/ OpenAI## 摘要对抗训练提供了一种正则化有监督学习算法的方法，而虚拟对抗训练能够将有监督学习算法扩展到半监督设置中。然而，这两种方法都需要对输入向量的众多条目进行微小扰动，这对于诸如 one-hot 词表示这样的稀疏高维输入来说是不合适的。我们通过对循环神经网络中的词嵌入应用扰动，而不是对原始输入本身应用扰动，将对抗训练和虚拟对抗训练扩展到文本领域。所提出的方法在多个基准半监督和纯有监督任务上取得了最先进的结果。我们提供了可视化和分析，展示了学习到的词嵌入质量的提高，以及在训练过程中模型不太容易过拟合。代码可在 https://github.com/tensorflow/models/tree/master/research/adversarial_text 获取。

相似文章

通过对比预训练的文本和代码嵌入

OpenAI Blog

# 通过对比预训练的文本和代码嵌入源：[https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/](https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/) ## 摘要文本嵌入是许多应用中的有用特征，例如语义搜索和计算文本相似性。以往的工作通常训练针对不同用例定制的模型，在数据集选择、训练目标和模型架构方面各不相同。在这

半监督文本分类的对抗训练方法

相似文章

通过对比预训练的文本和代码嵌入

大型语言模型的信息论对抗训练

通道级语义扰动：面向多样训练范式的不可学习示例

随机分词法提高模型鲁棒性

神经网络策略的对抗性攻击

提交意见反馈