MultiSoc-4D：用于诊断孟加拉语社交媒体封闭集大语言模型标注中指令诱导标签崩溃的基准

arXiv cs.CL 2026/05/11 04:00 论文

nlp benchmark llm-annotation low-resource-languages bias bengali

摘要

本文介绍了 MultiSoc-4D，这是一个用于诊断大语言模型在标注孟加拉语社交媒体数据时出现的指令诱导标签崩溃问题的基准测试。研究揭示，大语言模型系统性地倾向于使用默认标签，导致对仇恨言论和讽刺等少数类别的检测不足。

arXiv:2605.06940v1 公告类型：新发布摘要：通过大语言模型（LLMs）实现标注自动化是扩展自然语言处理（NLP）数据集的核心方法；然而，大语言模型在低资源语言环境中面对封闭集指令时的行为尚未得到充分研究。我们提出了 MultiSoc-4D，这是一个孟加拉语社交媒体数据集基准，包含来自六个来源的 58,000 多条社交媒体评论，并从四个维度进行标注：类别、情感、仇恨言论和讽刺。我们采用了一个结构化的流水线，让 ChatGPT、Gemini、Claude 和 Grok 分别对不同的数据分区进行标注，同时共享 20% 的公共验证集，从而系统地诊断大语言模型的行为。我们发现了一种普遍存在的现象，称为“指令诱导标签崩溃”，其中大语言模型表现出对默认标签（如“其他”、“中立”、“无”）的系统性偏好，导致表面上的高一致性率，但实际上对少数类别的检测不足。例如，我们发现与经过人工校准的参考标准相比，大语言模型未能检测出 79% 的仇恨内容实例和 75% 的讽刺内容实例。此外，我们通过几乎为零的 Fleiss' Kappa 系数（$\kappa \approx -0.001$）统计验证了这在讽刺检测中代表了一种“标签一致性幻觉”。在 40 多种大语言模型的测试中，我们基准测试了这种标注偏差在训练流水线中的传播情况，无论架构差异如何。我们发布 MultiSoc-4D 作为孟加拉语 NLP 中标注偏差的诊断基准。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 06:41

# MultiSoc-4D：用于诊断孟加拉语社交媒体封闭集大语言模型标注中指令诱导标签崩溃的基准测试

来源：https://arxiv.org/html/2605.06940
Souvik Pramanik${}^{1, *}$, S.M. Riaz Rahman Antu${}^{1}$, Shak Mohammad Abyad${}^{1}$, Md. Ibrahim Khalil${}^{1}$, Md. Shahriar Hussain${}^{1}$
$\{$souvik.pramanik, riaz.antu, shak.abyad, ibrahim.khalil03, shahriar.hussain01$\}[email protected]
${}^{1}$孟加拉国达卡，南北大学
*通讯作者：[email protected] (https://arxiv.org/html/2605.06940v1/mailto:[email protected])

###### 摘要

通过大语言模型（LLMs）实现标注自动化是扩展自然语言处理（NLP）数据集的核心方法；然而，LLMs在低资源语言中针对封闭集指令的行为尚未得到充分研究。我们提出了MultiSoc-4D，一个孟加拉语社交媒体数据集基准，其中包含来自六个来源的58,000多条社交媒体评论，并沿四个维度进行了标注：类别、情感、仇恨言论和讽刺。通过采用结构化流水线，ChatGPT、Gemini、Claude和Grok分别标注不同的分区，同时共享20%的公共验证集，我们系统地诊断了LLMs的行为。我们发现了一种普遍存在的现象，称为“指令诱导标签崩溃”（instruction-induced label collapse），即LLMs表现出对后备标签（其他、中立、否）的系统性偏好，导致高一致率但少数类别检测不足。例如，我们发现与经过人工校准的参考标准相比，LLMs未能检测到79%的仇恨内容实例和75%的讽刺内容实例。此外，我们通过统计验证证明这代表了一种“标签一致性幻觉”，在讽刺检测上的Fleiss' Kappa几乎为零（$\kappa \approx -0.001$）。在40多个LLMs中，我们基准测试了这种标注偏见在训练流水线中的传播情况，无论架构差异如何。我们将MultiSoc-4D作为孟加拉语NLP中 annotating bias的诊断基准发布。

关键词：孟加拉语NLP $\cdot$ 标签崩溃 $\cdot$ 封闭集标注 $\cdot$ LLM标注偏见 $\cdot$ 低资源NLP $\cdot$ 社交媒体数据集 $\cdot$ 仇恨言论检测 $\cdot$ 标注者间一致性

## 1 引言

图1：探索使用LLMs进行孟加拉语文本标注。
图2：MultiSoc-4D数据集和基于LLMs的标注流水线概述。

使用大语言模型（LLMs）作为人类标注者的可扩展替代品，以构建适用于多种NLP应用的标注数据集，这一做法日益增多。这些模型良好的零样本和少样本技能促进了高效且经济实惠的标注流水线的建立 [brown2020language; ouyang2022training]。因此，由LLMs驱动的标注实践已出现在包括情感分析、仇恨言论检测和话题分类在内的各种应用中。尽管LLMs在这些应用中的使用有所增加，但人们对这些模型作为标注器如何运作知之甚少。现有文献主要集中在模型的性能上，而未充分考虑标注指南和受限标签空间在LLMs决策过程中的作用 [wang2023self; gilardi2023chatgpt]。

许多基于大语言模型构建的标注框架假设封闭集标注，这意味着对每个观察值的预测都属于一组预定义的标签。许多系统涉及规避不确定性的提示，使模型在确定性较低时从一组后备标签中选择（例如，Other、Neutral、No）。虽然这种设计旨在确保系统保持一致性，但当应用于来自社交媒体平台的数据标注时，这种做法存在弊端，因为社交媒体数据具有多样性、模糊性和上下文依赖性特征。

本研究使用孟加拉语的多语言社交媒体数据MultiSoc-4D，遵循统一的封闭集指令方法，使用多个LLMs进行标注。我们的观察结果描述如下：

- **标签崩溃**：LLMs标注倾向于明显偏向某些类别，如“其他”、“中立”和“否”。
- **非对称一致性**：虽然LLMs对这些特定标签的一致性很高，但在不太常见的更复杂类别（如讽刺和仇恨言论）上的一致性几乎不存在。
- **人工与LLMs一致性差异**：与人工标注相比，有证据表明LLMs缺乏对隐含信息的理解。

上述观察结果表明，LLMs之间的一致性水平不能被视为语义一致性，而更多地归因于指令带来的偏见。

本研究的主要贡献包括：

- 提出了MultiSoc-4D，这是一个跨多个平台的孟加拉语社交媒体数据集，沿四个维度进行标注：类别、情感、仇恨程度和讽刺。
- 对使用封闭集指令进行的LLMs标注进行了实证调查，揭示了标签崩溃和偏斜问题。
- 表明LLMs之间的一致性是一种具有误导性的语义一致性度量，因为它主要反映了后备标签的主导地位。
- 估计了LLMs与人工标注之间的差距，展示了LLMs在理解细微线索方面面临的挑战。

本文的其余部分结构如下。在第2节中，我们回顾了先前使用LLMs进行标注和研究社交媒体数据集的文献。在第3节中，我们介绍了我们的数据集MultiSoc-4D，并展示了基于LLMs的标注系统及其流程。在第4节中，我们对LLMs的标注行为进行了实证分析。在第5节中，我们进行人工评估并量化偏见。第6节展示了在存在偏见的标注数据下的基准测试及其策略。第7节讨论了结果和整体分析。第8节介绍了研究的局限性，并提到了我们的未来方向。伦理考量在第9节中提及，最后第10节总结了本研究。

## 2 相关工作

### 2.1 用于数据标注的LLMs

[hasan2024zerofewshotpromptingllms] 提出了MUBASE，作为孟加拉语情感分析的新基准，包含来自Twitter和Facebook的33,606条社交媒体推文和帖子，标记为正面、负面和中性。该论文分析了变压器模型（如BanglaBERT）微调的结果，并将其与通过GPT-4和Flan-T5进行的零样本和少样本提示进行比较。研究结果显示，在性能指标方面，BanglaBERT优于后一种方法；特别是，前者达到了69.39%的F1分数，而后者为61.17%。该研究强调了以前使用的数据集在数据标注一致性方面的差距以及该领域缺乏LLMs基准测试的问题。与此同时，[tan2024largelanguagemodelsdata] 对独立和人在回路框架中作为数据标注工具的LLMs进行了综述。作者考虑了三种标注方式——零/少样本提示、基于指令的标注和迭代改进——并声称前两种方法可以在降低成本和时间的前提下达到接近人类水平的准确率。然而，LLMs对提示敏感，在主观和多语言环境中容易受到偏见和幻觉的影响，并且在孟加拉语等低资源语言中尚未得到充分评估。

### 2.2 社交媒体数据和多标签分类数据集

[BANHATE] 是一个用于孟加拉语仇恨言论分类的数据集，包含19,203条YouTube评论，基于二元和细粒度仇恨基础进行分类。这项工作评估了LLMs和变压器，发现LLaMA-3.1 (8B) 配合LoRA表现最佳（仇恨类别F1为83.83%）。该数据集通过允许细粒度和现实的仇恨检测，克服了以往仅二元分类的 shortcomings。[SentiGOLD] 提出了一个广泛的孟加拉语数据集，包含七千种情感和来自不同领域的总共五种不同标签。使用深度和机器学习模型，其宏F1分数高达0.62。该数据集克服了以往数据标注噪声和非标准化方法的缺点。[BanglaBook] 提出了一个非常大的数据集，涉及孟加拉语书籍及其158,000条评论。Bangla-BERT达到了93.31%的F1分数，该数据集优于传统模型。通过克服以往有限数据集的问题，它实现了有效的产品情感分类。[paul2025analyzingemotionsbanglasocial] 提出了EmoNoBa，一个基于六种情感的22,698条标注评论的数据集。经典模型的表现优于BiLSTM（F1 = 38.69%），而表现最佳的是AdaBoost。使用LIME进行解释，解决了以往情感分类数据集可解释性的问题。[10129187] 引入了BE-CM，一个孟加拉语-英语混合语码情感分类数据集，包含18,074条评论。配合FastText和数据增强的XGBoost获得了87%的F1分数，使其对噪声文本更具鲁棒性，且不需要平行语料库。[das-bandyopadhyay-2010-labeling] 通过基于Ekman六种情感标注句子，创建了一个句子级孟加拉语情感识别数据集，涵盖12,000个句子。最成功的方法是SVM（准确率 = 80.55%），允许在情感层面进行细致分析。[haider-etal-2025-banth] 创建了BanTH，一个包含37,350条音译孟加拉语评论的数据集，分为七类仇恨言论。最佳模型TB-mBERT达到了77.36%的宏F1，解决了现实世界数据中音译和多标签的挑战。Potrika [ahmad2022potrikarawbalancednewspaper] 被提出作为一个320,000条孟加拉语新闻的数据集。GRU+FastText的准确率为92%，但在弱监督下模型性能大幅下降，强调了人工标注的需求。[BanglishRev] 由174万条电子商务评论数据集组成，包含孟加拉语、英语和孟加拉英语混合文本。BanglishBERT展示了约94%的F1分数，实现了大规模情感和行為分析。[islam-etal-2022-emonoba] 证明，由于孟加拉语文本的非正式性质与预训练语言模型相比，经典模型在EmoNoBa（22,000条评论）中表现优于深度模型。[BnSentMix] 是一个20,000条孟加拉语和英语混合语码文本数据集。基于Transformer的模型达到了69.8%的准确率，改善了现实世界混合语言内容的处理。[article_hossain] 创建了一个小规模基于情感的孟加拉语-英语数据集（2,055条评论）。SVM产生了85.7%的准确率，表明表情符号在情感分类中起着关键作用。[HASAN2024111107] 提出了一个新的孟加拉语ASRB数据集；然而，由于其样本量小且范围狭窄，无法用于基准测试。虽然这篇论文为细粒度情感分析做出了贡献，但仍有改进空间。[ISLAM2024100069] 提出了一个名为BangDSA的数据集，包含大量203,000条评论，以及15种情感类型。CNN-BiLSTM在15类中达到了90.24%的准确率，在三类中达到了95.71%的准确率；然而，数据收集不平衡，且数据集不可用。Hossain等人 [hossain_fahima2025] 开发了一个微小的孟加拉语情感数据集，仅包含3,000条数据，使用三种算法：SVM、CNN和LSTM。LSTM模型表现出更好的性能（非正式准确率=80.3%）。

### 2.3 标注偏见和标签噪声

NC-SentNoB [elahi-etal-2024-comparative] 是一个基准，由15,000个标记为10种噪声类型的孟加拉语样本组成。[elahi-etal-2024-comparative] 使用SVM、BiLSTM、Bangla-BERT和MuRIL等多种模型进行了实验。发现Bangla-BERT-Base在噪声检测方面优于其他模型（F1: 0.62）。最佳情感性能由BanglaBERT实现（F1: 0.75），但在噪声减少后略有下降（F1: 0.73）。换句话说，当前处理标签噪声的技术可能效果不佳，并改变语义含义。[choi2024multinewscostefficientdatasetcleansing] 提出了Multi-news+，这是一个基于LLMs的数据集清理框架，以节省标注成本。与启发式方法相比，[choi2024multinewscostefficientdatasetcleansing] 显示Multi-news+导致了更高的标注一致性和在清理数据集上训练的机器学习模型的性能。不幸的是，该框架的有效性取决于提示设计和使用的语言模型，在低资源和特定领域设置中效果较差。

### 2.4 封闭集与开放集标注

[elumar2025costawarellmbasedonlinedataset] 提出了一种针对在线数据集标注的成本高效基于LLMs的标注方法，涉及在基于LLMs的方法和成本较低的方法之间取得平衡，从而在不牺牲性能的情况下实现提高的标注效率。然而，该工作中仍然存在基于LLMs的偏见，歧义和领域特异性可能会负面影响可靠性，并且在控制数据集上进行的评估不足。

相似文章

基于LLM推理的多视角注意力多示例学习在认知扭曲检测中的应用

arXiv cs.CL

本文提出一个新颖框架，将大语言模型与多示例学习相结合，通过将话语分解为情绪、逻辑和行为三个维度，并使用多视角门控注意力机制来检测心理健康文本中的认知扭曲。该方法在韩文和英文数据集上展现了改进的性能，特别是对于具有高解释歧义性的扭曲。

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

Hugging Face Daily Papers

研究者采用基于LRP的对比归因方法，分析大模型在现实基准中失败的原因，发现该方法在某些场景下能提供有用信号，但并非始终可靠。

基于大型语言模型引导的半监督方法用于社交媒体危机数据分类

arXiv cs.AI

本文对利用大型语言模型（LLM）引导的半监督学习进行社交媒体危机数据分类进行了实证评估。研究表明，在低资源场景下，LG-CoTrain 的表现优于经典基线模型，并突显了将 LLM 知识迁移至更小、更易部署的模型以支持灾害响应的潜力。

MM-JudgeBias：评测 MLLM-as-a-Judge 组合偏差的基准

Hugging Face Daily Papers

研究者发布 MM-JudgeBias 基准，揭示多模态大模型在充当自动评判器时的系统性组合偏差，对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移