CBRS：基于双语数据集与双层过滤的多平台社交流认知血液请求系统

arXiv cs.CL 2026/04/21 04:00 论文

research-paper blood-donation social-media bilingual-dataset llm-finetuning llama information-extraction multilingual

摘要

孟加拉国工程技术大学的研究人员提出了CBRS，一个多平台框架，采用双层架构并利用包含1.1万条孟加拉语和英语双语解析血液请求消息的新数据集，对社交媒体中的血液捐赠请求进行过滤和解析。其LoRA微调的Llama-3.2-3B模型实现了99%的过滤准确率和92%的零样本解析准确率，在减少35倍令牌使用量的同时，优于GPT-4o-mini等其他大语言模型。

arXiv:2604.16665v1 Announce Type: new 摘要：社交媒体上紧急求血的帖子和消息常因每日海量通信而被忽视。传统基于应用的系统依赖人工输入，难以触达资源匮乏地区的用户，导致关键响应延迟。为解决这一问题，我们提出了认知血液请求系统（CBRS），这是一个多平台框架，采用成本高效的双层架构对社交媒体流中的血液捐赠请求进行高效过滤和解析。为此，我们整理了一个包含1.1万条解析血液捐赠请求消息的新数据集，涵盖孟加拉语、英语和音译孟加拉语，捕捉了真实社交媒体通信的语言多样性。对抗性负样本的引入进一步增强了模型的鲁棒性。CBRS在过滤任务中实现了令人瞩目的99%准确率和精确率，超越了基准方法。在解析任务中，我们LoRA微调的Llama-3.2-3B模型实现了92%的零样本准确率，超越基线模型41.54%，并超过了GPT-4o-mini、Gemini-2.0-Flash及其他大语言模型的少样本性能，同时将输入令牌使用量减少了35倍。这项工作为时间敏感、目标导向任务中的可扩展、包容性信息抽取奠定了坚实基础。我们的代码、数据集和训练模型已在 https://github.com/aaniksahaa/CBRS 公开提供。

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:03

# CBRS：面向多平台社交流的双语数据集与双层过滤认知血液请求系统

来源：https://arxiv.org/html/2604.16665

Anik Saha<sup>1∗</sup> Mst. Fahmida Sultana Naznin<sup>1∗</sup> Zia Ul Hassan Abdullah<sup>1</sup> Anisa Binte Asad<sup>1</sup> K. G. Subarno Bithi<sup>1</sup> A. B. M. Alim Al Islam<sup>1</sup>

<sup>1</sup>孟加拉国工程技术大学，孟加拉国达卡

[email protected], [email protected], [email protected]

[email protected], [email protected], [email protected]

∗这些作者贡献相同，按字母顺序排列

###### 摘要

社交媒体上紧急血液捐献求助帖子和消息常常因每日通信量巨大而被忽视。传统基于应用程序的系统依赖人工输入，难以触达资源匮乏地区的用户，导致关键响应延迟。为解决这一问题，我们提出了认知血液请求系统（CBRS），这是一个多平台框架，采用成本高效的双层架构，从社交媒体流中高效过滤和解析血液捐献请求。为此，我们策划了一个包含11K条解析后的孟加拉语、英语和音译孟加拉语血液捐献请求消息的新数据集，捕捉了真实社交媒体通信的语言多样性。对抗性负样本的加入进一步增强了模型的鲁棒性。CBRS在过滤任务中达到了99%的准确率和精确率，超越了基准方法。在解析任务中，我们使用LoRA微调的Llama-3.2-3B模型达到了92%的零样本准确率，比基线模型提升了41.54%，同时超越了GPT-4o-mini、gemini-2.0-flash等大语言模型的少样本性能，并将输入token使用量减少了35倍。这项工作为时间敏感、对象聚焦任务中的可扩展、包容性信息提取奠定了坚实基础。我们的代码、数据集和训练模型已公开发布于https://github.com/aaniksahaa/CBRS。

# CBRS：面向多平台社交流的双语数据集与双层过滤认知血液请求系统

Anik Saha<sup>1∗</sup> Mst. Fahmida Sultana Naznin<sup>1∗</sup> Zia Ul Hassan Abdullah<sup>1</sup> Anisa Binte Asad<sup>1</sup> K. G. Subarno Bithi<sup>1</sup> A. B. M. Alim Al Islam<sup>1</sup>

<sup>1</sup>孟加拉国工程技术大学，孟加拉国达卡

[email protected], [email protected], [email protected]

[email protected], [email protected], [email protected]

∗这些作者贡献相同，按字母顺序排列

## 1 引言

在数字时代，社交网站（SNS）推动了在线社区的快速增长，每日有数百万帖子被分享Auxier等（2021 (https://arxiv.org/html/2604.16665#bib.bib1)）。在紧急情况下，用户越来越多地依赖这些平台发布紧急血液捐献需求，寻求与潜在捐献者建立联系Alanzi和Alsaeed（2019 (https://arxiv.org/html/2604.16665#bib.bib3)）。然而，如果没有高效的自动化系统，此类帖子往往只能停留在用户直接的社交圈中，限制了其传播范围Mathur等（2018 (https://arxiv.org/html/2604.16665#bib.bib57)）。社交媒体通信的非结构化和分散性给提取关键信息和高效传播这些请求带来了重大挑战Abbasi等（2018 (https://arxiv.org/html/2604.16665#bib.bib2)）；Xu等（2022 (https://arxiv.org/html/2604.16665#bib.bib5)）。

请参见图注 孟加拉语-英语-音译孟加拉语血液请求语料库的双语解析方法

多语言环境中此类消息的过滤和解析存在一个关键限制：低资源语言（如孟加拉语）的可用数据集有限。大多数最先进的自然语言处理架构依赖大规模标注语料库，而低资源语言的这方面资源非常匮乏Peters等（2019 (https://arxiv.org/html/2604.16665#bib.bib75)）。这些语言通常具有复杂的形态句法结构、多样的方言变体和独特的语言现象（如图1所示 (https://arxiv.org/html/2604.16665#S1.F1)），这些在现有的多语言预训练模型中代表性不足，限制了有效的泛化和迁移学习Peters等（2019 (https://arxiv.org/html/2604.16665#bib.bib75)）。虽然存在灾难和紧急请求分类的数据集Mathur等（2018 (https://arxiv.org/html/2604.16665#bib.bib57)）；Alam等（2021 (https://arxiv.org/html/2604.16665#bib.bib58)），但没有专门包含孟加拉语或音译孟加拉语的数据集。据我们所知，我们引入了第一个包含英语、孟加拉语和音译孟加拉语血液捐献请求的双语数据集。图2 (https://arxiv.org/html/2604.16665#S1.F2)展示了我们数据集的词云图。

为紧急血液捐献请求开发可靠的解决方案，准确检测并有效地向潜在捐献者传播，这带来了几个关键挑战。首先，传入消息和社交媒体帖子的数量通常巨大，但其中只有一小部分代表实际的血液捐献请求。此外，在对这类请求进行分类时，假阴性比假阳性危害大得多，因为前者意味着忽略一个紧急请求，而后者只会给后续处理增加一点负担。虽然已有灾难和紧急相关消息分类的研究工作Le（2022 (https://arxiv.org/html/2604.16665#bib.bib94)）；Powers等（2023 (https://arxiv.org/html/2604.16665#bib.bib95)）；Shukhman和Shukhman（2022 (https://arxiv.org/html/2604.16665#bib.bib96)），但他们往往忽视了这个问题的非对称性质。其次，仅检测消息是否在请求血液捐献还不足以确定应通知哪些捐献者以最大化快速响应的可能性。对这类自由格式文本进行自动解析对于以结构化格式提取关键信息至关重要。然而，之前的研究主要关注检测Cheng等（2024 (https://arxiv.org/html/2604.16665#bib.bib97)）；Wan等（2024 (https://arxiv.org/html/2604.16665#bib.bib98)），在设计高效且可扩展的解析解决方案方面存在空白。第三，对于此类系统在实际部署中的可行性，它必须平衡速度和准确性，而这带来了冲突的设计约束。例如，使用简单训练的轻量级机器学习（ML）模型进行分类存在较高假阴性率的可能性，而完全使用大语言模型（LLM）进行此分类任务由于传入数据量大而导致高推理时间和成本，将不具备可扩展性。

为应对这些挑战，我们提出了成本高效的双层过滤架构来有效地从大型消息池中识别血液捐献请求，并配合成本高效的大语言模型对自由格式文本请求进行快速准确的解析，将其转换为预定义的结构化格式。我们的主要贡献如下：

- • 我们提出了一个新的解析双语数据集，包含从社交媒体收集的11K条孟加拉语-英语-音译孟加拉语血液捐献请求。该数据集还进一步丰富了精心策划的对抗性负样本和公开可用数据集中的片段。
- • 我们提出了认知血液请求系统（CBRS），它集成了一个成本高效的双层过滤架构，设计用于高效检测血液捐献请求，同时考虑到非对称类别权重。
- • 我们训练了一个使用LoRA微调的Llama-3.2-3B模型用于解析，并将其性能与其他开放和闭源大语言模型在零样本和少样本设置下进行比较。
- • 我们在性能和计算复杂度方面将CBRS与现有过滤和解析方法进行了基准测试。在对30个不同人口统计学特征的活跃Telegram和Discord群组进行单独的人类评估研究中，我们评估了我们方法的实际效果，并识别了影响用户满意度的关键因素。

请参见图注 (a) 孟加拉语

请参见图注 (b) 英语

请参见图注 (c) 音译孟加拉语

图2：CBRS数据集中最高频关键词的词云图

请参见图注 图3：CBRS的数据来源流程：正样本从Facebook、EBDR-Twitter和Telegram收集，然后进行清洗，并从BanglaNMT、BanglaTLit、EBDR-Twitter、Facebook和精心策划的对抗性样本中进行负样本增强。

## 2 相关工作

#### 社交媒体信息提取

社交媒体在紧急情况下的实时更新中至关重要，但其非结构化和嘈杂的特性使得提取可操作的洞察变得困难。人工智能和自然语言处理的最新进展，特别是大语言模型，提供了有前景的解决方案。Marozzo等人使用大语言模型按情感、情绪和主题对灾难相关内容进行分类，生成针对利益相关者的摘要Marozzo（2025 (https://arxiv.org/html/2604.16665#bib.bib99)）。He和Hu开发了一个结合自然语言处理和地理空间可视化的人工智能系统，用于有效监控He和Hu（2025 (https://arxiv.org/html/2604.16665#bib.bib100)）。Yin等人提出了CrisisSense-LLM，用于事件类型、信息相关性和援助相关性的多标签分类Yin等（2024 (https://arxiv.org/html/2604.16665#bib.bib102)）。Shetty等人使用社交媒体文本和图像的多模态学习达到了91%以上的准确率Shetty等（2024 (https://arxiv.org/html/2604.16665#bib.bib103)）。Hu等人引入了一种地理知识引导的GPT用于位置提取，性能超过传统命名实体识别40%Hu等（2023 (https://arxiv.org/html/2604.16665#bib.bib104)）。Alharbi和Haq应用DistilBERT进行推文分类，训练准确率达92.42%，验证准确率达82.11%Alharbi和Haq（2024 (https://arxiv.org/html/2604.16665#bib.bib105)）。Mehmood等人提出了三步方法对相关帖子进行分类、提取位置和主题建模，F1分数较高Mehmood等（2024 (https://arxiv.org/html/2604.16665#bib.bib106)）。然而，血液相关请求的具体提取仍未被充分探索。

#### 低资源语言数据集策划

使用大语言模型进行信息提取正越来越多地应用于灾难响应。然而，在孟加拉语等低资源语言中，策划的特定任务数据集非常稀少Hasan等（2020 (https://arxiv.org/html/2604.16665#bib.bib55)）；Fahim等（2024 (https://arxiv.org/html/2604.16665#bib.bib81)），这仍然是主要瓶颈。Mathur等人Mathur等（2020 (https://arxiv.org/html/2604.16665#bib.bib112)）提出了一个识别Twitter上紧急血液捐献请求的系统，突出了社交媒体挖掘在关键医疗干预中的潜力。CrisisBenchDoe和Smith（2023 (https://arxiv.org/html/2604.16665#bib.bib113)）将过去的灾难数据集汇总为用于信息性和紧急性预测的统一基准。CrisisMMDAlam等（2018 (https://arxiv.org/html/2604.16665#bib.bib114)）是一个早期的多模态数据集，整合了Twitter的文本和图像用于灾难分类。对于孟加拉语，Saha等人Saha等（2025 (https://arxiv.org/html/2604.16665#bib.bib115)）引入了一个涵盖洪水和旋风的灾难数据集，处理代码混合、低资源环境中的信息性和紧急性问题。Bengali.AIChowdhury等（2020 (https://arxiv.org/html/2604.16665#bib.bib107)）和AI4DTeam（2022 (https://arxiv.org/html/2604.16665#bib.bib108)）贡献了手写和语音-文本语料库，而BNLPBenchRahman等（2023 (https://arxiv.org/html/2604.16665#bib.bib109)）建立了孟加拉语命名实体识别、情感和分类的基准。Khandaker等人Khandaker等（2022 (https://arxiv.org/html/2604.16665#bib.bib110)）构建了孟加拉语COVID-19谣言数据集，Roy等人Roy等（2022 (https://arxiv.org/html/2604.16665#bib.bib111)）开发了BanglaLark，这是一种用于灾难相关分类的轻量级BERT模型。这些资源支持多语言危机人工智能，但血液相关孟加拉语数据集仍然缺失。

## 3 数据集

为克服当前孟加拉语音译数据集的局限性，我们的设计围绕两个关键目标：开发用于血液捐献请求的孟加拉语-英语-音译孟加拉语语料库，并捕捉社交媒体群组中多样的文本风格，包括方言变体、俚语和缩写，这有助于创建对在线通信中语言演变方式的深入理解。

### 3.1 数据来源

我们从Telegram和Facebook上的15个公开血液捐献群组中收集孟加拉语、英语和音译孟加拉语消息。总体而言，我们提供了一个包含11K条解析后的紧急血液捐献请求的数据集，如表1所示 (https://arxiv.org/html/2604.16665#S3.T1)。

### 3.2 数据清洗

在聚合数据来源后，我们进行了广泛的去重，并检测与血液捐献请求没有直接关联的样本。某些消息——如表达捐献意愿（例如"我可以在达卡捐献A型血。如果您是接受者请联系我"）或捐献后致谢——虽然结构上与正样本相似，但不代表实际请求。我们将这些分类为硬负样本：与真阳性在语言和上下文模式上高度相似的不相关样本。由于这些样本可能特别引入语义歧义，我们将它们保留在数据集的负样本部分以提高分类器的鲁棒性。

表1：不同来源的样本分布

| 类别 | 来源 | 总样本数 | 总token数 | 平均token数 |
|------|------|---------|----------|------------|
| 正样本 | Facebook | 6321 | 1747772 | 276.50 |
|  | EBDR-Twitter | 3941 | 1692904 | 429.66 |
|  | Telegram | 7441 | 3994818 | 537.10 |
|  | 总计 | 11006 | 2057010 | — |
| 负样本 | BengaliNMT | 3194 | 2362207 | 739.96 |
|  | BengaliTLit | 5000 | 7730581 | 1546.12 |
|  | Curated-Adversarial | 600 | 262114 | 436.69 |
|  | Facebook | 2509 | 2262369 | 901.70 |
|  | EBDR-Twitter | 5851 | 22256838 | 3803.88 |
|  | 总计 | 14895 | 1350319 | — |

### 3.3 负样本数据增强

数据集包含正样本（1：需要血液捐献）和负样本（0：不相关），经过仔细标注用于分类。我们利用BengaliNMTHasan等（2020 (https://arxiv.org/html/2604.16665#bib.bib55)）中的孟加拉语和英语文本，BengaliTLitFahim等（2024 (https://arxiv.org/html/2604.16665#bib.bib81)）中的孟加拉语和音译孟加拉语文本。上一阶段手动过滤出的硬负样本被包含在负样本部分。我们还加入了精心策划的包含"blood"、"urgent"和"emergency"等术语的对抗性样本以增强鲁棒性。这些对抗性样本是使用Deepseek-V3以上述硬负样本进行少样本提示生成的。我们还从EBDR数据集中获取了部分负样本。表1 (https://arxiv.org/html/2604.16665#S3.T1)提供了概览。表2 (https://arxiv.org/html/2604.16665#S3.T2)总结了两个类别中孟加拉语、英语和音译样本的分布。图3 (https://arxiv.org/html/2604.16665#S1.F3)展示了数据策划的工作流程。

表2：不同语言的样本分布

| 类别 | 语言 | 总样本数 | 总token数 | 平均token数 |
|------|------|---------|----------|------------|
| 正样本 | 孟加拉语 | 6163 | 1829929 | 296.92 |
|  | 英语 | 4412 | 1970304 | 446.60 |
|  | 音译 | 431 | 300516 | 697.26 |
| 负样本 | 孟加拉语 | 4420 | 8935820 | 2021.67 |
|  | 英语 | 7663 | 2643334 | 344.94 |
|  | 音译 | 2812 | 1924036 | 684.42 |

## 4 方法论

社交网站上流传的血液捐献消息通常是非结构化的，这使得基于复杂标准自动化捐献者匹配变得复杂，并阻碍了快速响应。在社

CBRS：基于双语数据集与双层过滤的多平台社交流认知血液请求系统

相似文章

LiquidAI/LFM2.5-ColBERT-350M

表面礼貌，实际错误：用于修复多语言孟加拉语生成中敬语失误的精选数据集

@liquidai: 介绍 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M：两款为超快且精准的多语言检索模型

面向南非结核病诊疗的领域专用大语言模型开发与初步评估

MultiSoc-4D：用于诊断孟加拉语社交媒体封闭集大语言模型标注中指令诱导标签崩溃的基准

提交意见反馈