无监督情感神经元
摘要
OpenAI 展示了一个无监督系统,通过训练乘法 LSTM 来预测亚马逊评论中的下一个字符,学习情感表示。该系统在斯坦福情感树库(Stanford Sentiment Treebank)上实现了最先进的情感分析效果(91.8% 准确率),同时所需的标注样本比监督学习方法少 30-100 倍。模型发现了一个独特的'情感神经元',能够捕捉情感信息,可以直接操纵来控制文本生成的情感。
我们开发了一个无监督系统,它学会了优秀的情感表示,尽管该系统仅被训练用于预测亚马逊评论文本中的下一个字符。
查看缓存全文
缓存时间:
2026/04/20 14:45
# 无监督情感神经元
来源:https://openai.com/index/unsupervised-sentiment-neuron/
我们开发了一个无监督系统,仅通过训练预测亚马逊评论中的下一个字符,就学到了优异的情感表示。
使用这种表示的线性模型在广泛研究的小规模数据集斯坦福情感树库(Stanford Sentiment Treebank)上实现了最先进的情感分析准确率(我们获得91.8%的准确率,而之前的最佳成绩是90.2%),并且只需使用30-100倍更少的标注样本就能匹配之前的监督系统性能。我们的表示还包含一个独特的"情感神经元",它包含了几乎所有的情感信号。
我们的系统在斯坦福情感树库上的表现优于其他方法,同时使用的数据量要少得多。
标注训练样本数量的图表
我们模型的两个变体(绿线和蓝线)达到完全监督方法性能所需的标注样本数量,每个方法使用6,920个样本进行训练(灰色虚线)。我们采用L1正则化的模型(在亚马逊评论上以无监督方式预训练)仅用11个标注样本就能匹配多通道CNN的性能,用232个样本就能匹配最先进的CT-LSTM集成模型。
我们对模型学到了一个可解释的特征感到非常惊讶,仅仅预测亚马逊评论中的下一个字符竟然能够发现情感的概念。我们认为这种现象不是我们模型特有的,而是大型神经网络的一般性质——当这些网络被训练来预测其输入中的下一步或下一维度时,就会出现这种现象。
我们首先在包含8,200万条亚马逊评论的语料库上训练了一个有4,096个单元的乘性LSTM,用来预测文本块中的下一个字符。训练耗时一个月,使用了四个NVIDIA Pascal GPU,我们的模型每秒处理12,500个字符。
这4,096个单元(只是一个浮点数向量)可以看作是代表模型读取字符串的特征向量。在训练mLSTM后,我们通过取这些单元的线性组合将模型转换为情感分类器,通过可用的监督数据学习组合的权重。
在使用L1正则化训练线性模型时,我们注意到它使用的学到的单元数量出人意料地少。深入研究后,我们发现实际上存在一个单独的"情感神经元",它对情感值具有高度的预测性。
显示正负评论的情感神经元值的图表
就像类似的模型一样,我们的模型可以用于文本生成。与那些模型不同的是,我们有一个直接的拨盘来控制生成文本的情感:我们只需覆盖情感神经元的值。
下图代表了情感神经元的逐字符值,将负值显示为红色,正值显示为绿色。注意到像"*best*"或"*horrendous*"这样强烈指示性的词会引起特别大的颜色变化。
情感预测
情感神经元逐字符调整其值。
有趣的是,该系统也在句子和短语完成后进行大的更新。例如,在"*And about 99.8 percent of that got lost in the film*"中,"*lost*"后有一个负更新,句子末尾有一个更大的更新,即使"*in the film*"本身没有情感内容。
标注数据是当今机器学习的燃料。收集数据很容易,但大规模标注数据很困难。只有在奖励值得付出努力的重要问题上,如机器翻译、语音识别或自动驾驶,才能可行地生成标签。
机器学习研究人员长期以来梦想开发无监督学习算法,以学习数据集的良好表示,然后仅使用少数几个标注示例来解决任务。我们的研究表明,在大量数据上训练大型无监督的下一步预测模型可能是创建具有良好表示学习能力的系统时的一个好方法。
我们的结果是朝向通用无监督表示学习迈出的有前景的一步。我们通过探索是否可以将良好质量的表示学习作为语言建模的副作用而发现了这些结果,并在精心选择的数据集上扩展了现有模型。然而,其潜在现象仍然比清晰更神秘。
- 这些结果在长文档数据集上的表现并不理想。我们怀疑我们的字符级模型在数百到数千个时间步骤上记忆信息时感到困难。我们认为值得尝试可以调整其运行时间尺度的分层模型。进一步扩展这些模型可能会进一步改进表示保真度以及情感分析和类似任务的性能。
- 当输入文本偏离评论数据越远,模型表现越差。值得验证的是,扩大文本样本语料库是否会产生同样信息丰富的表示,并且也适用于更广泛的领域。
- 我们的结果表明,存在某些设置,其中非常大的下一步预测模型学到了优异的无监督表示。训练大型神经网络来预测大量视频集合中的下一帧,可能会产生用于对象、场景和动作分类器的无监督表示。
总的来说,理解模型、训练体制和数据集的特性非常重要,这些特性能够可靠地导致如此优异的表示。
相似文章
OpenAI Blog
OpenAI 提出了一种两阶段方法来改进语言理解:首先在大规模无监督数据集上使用语言建模对 transformer 模型进行预训练,然后在较小的有监督数据集上针对特定任务进行微调。该方法在包括常识推理、语义相似度和阅读理解在内的多种任务上取得了最先进的成果,同时需要的超参数调优工作最少。
arXiv cs.CL
本文利用深度学习方法(LCF-BERT-CDM)研究了《自然·通讯》多轮同行评审中方面级情感的分布与演化,实现了82.65%的宏F1值,并发现随着评审轮次增加,正面情感上升而负面情感下降。
arXiv cs.CL
本论文提出了SSAS(语法与语义上下文评估汇总)框架,旨在通过分层分类和迭代汇总来减少噪声和方差,提高基于大语言模型的情感预测的一致性。在三个行业标准数据集上的实证评估显示,数据质量和企业决策可靠性可提升30%。
arXiv cs.CL
本文比较了多种机器学习与Transformer模型在电影评论情感分类中的表现,发现RoBERTa达到了93.02%的准确率,而软投票集成方法进一步提升了性能。
arXiv cs.CL
本文使用基于BERT的大型语言模型对Decentraland的Discord社区进行情感分析,以提升MANA代币价格预测,并证明融合情感、交易量和市值信息的多模态LSTM模型优于仅使用价格信息的基线模型。