标签
本文介绍了 MultiSoc-4D,这是一个用于诊断大语言模型在标注孟加拉语社交媒体数据时出现的指令诱导标签崩溃问题的基准测试。研究揭示,大语言模型系统性地倾向于使用默认标签,导致对仇恨言论和讽刺等少数类别的检测不足。
研究者用三个开源大模型为PersuasionForGood语料库中的10,600条说服者回合标注41种说服策略,发现策略类别对捐赠方差解释力极低,而“内疚诱导”显著降低捐赠率。