标签
提出了一种基于强化学习的后训练方法,使用群体相对策略优化(GRPO)和链式思维监督,以提高基于思维的多模态大语言模型在仇恨与宣传梗图检测中的分类和解释质量,在Hateful Memes和ArMeme基准上取得了改进。