LaMSUM: 通过LLM引导的提取式摘要放大针对骚扰的声音
摘要
LaMSUM是一个新颖的多层次框架,使用LLM为公民举报平台生成大量骚扰事件报告的提取式摘要。该方法优于最先进的提取式摘要方法,并解决了有限的LLM上下文窗口和代码混合语言处理等挑战。
arXiv:2406.15809v5 公告类型:替换
摘要:公民举报平台帮助公众和当局了解性骚扰事件的最新信息。然而,这些平台上共享的数据量很大,审查每个案件都很困难。因此,需要一种能够处理和理解各种代码混合语言的摘要算法。近年来,大语言模型(LLM)在自然语言处理任务(包括摘要生成)中表现出色。LLM本身通过释义原文本生成抽象摘要,而通过LLM生成提取式摘要——从原文本中选择特定子集——在很大程度上仍未被充分探索。此外,LLM的上下文窗口大小有限,限制了一次处理的数据量。我们通过引入LaMSUM来应对这些挑战,这是一个新颖的多层次框架,结合了摘要生成和不同的投票方法,使用LLM为大型事件报告集合生成提取式摘要。使用四个流行的LLM(Llama、Mistral、Claude和GPT-4o)的广泛评估表明,LaMSUM优于最先进的提取式摘要方法。总的来说,这项工作代表了通过LLM实现提取式摘要的首批尝试之一,可能通过提供综合概览来支持利益相关者,使他们能够制定有效的政策以最大限度地减少不必要的骚扰事件。
查看缓存全文
缓存时间: 2026/04/20 08:30
# LaMSUM:通过大语言模型引导的提取式摘要总结来放大反对骚扰的声音
来源:https://arxiv.org/html/2406.15809
###### 摘要
市民举报平台帮助公众和政府部门了解性骚扰事件。然而,这些平台上共享的数据量很大,逐个审查每个案件具有挑战性。因此,需要一种能够处理和理解各种混合代码语言的摘要算法。近年来,大语言模型(LLMs)在自然语言处理任务中表现出卓越的性能,包括摘要总结。LLMs 通过改写原始文本来生成抽象摘要,而通过 LLMs 生成提取式摘要——从原始文本中选择特定子集——在很大程度上仍未被探索。此外,LLMs 的上下文窗口大小有限,限制了一次可以处理的数据量。我们通过引入 LaMSUM 来解决这些挑战,这是一个新型多级框架,结合摘要和不同的投票方法,使用 LLMs 为大量事件报告生成提取式摘要。使用四个流行的 LLMs(Llama、Mistral、Claude 和 GPT-4o)进行的广泛评估表明,LaMSUM 优于最先进的提取式摘要方法。总体而言,这项工作代表了通过 LLMs 实现提取式摘要的首批尝试之一,可能会通过提供全面概览并使利益相关者能够制定有效政策以最小化不必要骚扰事件,从而为利益相关者提供支持。
警告:本论文包含可能令人困扰或不安的内容。
## 1 引言
| 类别 | 帖子 |
|------|------|
| 抢劫 | 这起事件发生在晚上。两个骑摩托车的人骑着摩托车从一位老妇人身上用枪指着抢了17000卢比。 |
| 跟踪 | 一个男人跟踪我好几天,还在我门口寄信说他疯狂爱上了我,他对我的身体很着迷。 |
| 性邀请 | 我在人行道上行走去附近见朋友。一个男人驾车在平行的道路上行驶,不断说着下流的评论。我忽视了,但15分钟后他停下车说"chalri h ky, paise h mere pas"(我有钱,你想和我一起去吗?)。我尖叫着向周围的人求救。 |
| 在公共场所自慰 | 有一天我错误地提前到达学校。其中一位司机叫我和我的朋友,开始在我们面前自慰。 |
| 色眯眯地看 | 我骑着滑板车前往补习班,突然一些男孩骑着摩托车过来。他们开始发表廉价评论和取笑我。天色已晚,地区很偏僻。他们开始围着我的摩托车转圈,我很害怕。我开始往人多的地方开,这时他们才离开。 |
| 展示色情内容 | 一个停在外面的车里的男人在看色情内容,我看到了。他转向我的设备并做出冒犯的手势邀请我。 |
| 性侵犯 | 当我7岁时,店主脱掉我的衣服并开始到处摸我。他也试图对另一个女孩这样做,但失败了。 |
| 家庭暴力 | 我丈夫总是怀疑我的品格,不允许我独自外出,使用非常下流的语言,还打我。 |
表1:在事件举报平台上共享的骚扰案例示例。政府部门和市民的积极行动有助于防止许多此类事件。向利益相关者提供特定地区发生事件的简明概述至关重要,这可以通过利用摘要算法有效实现。
在过去几十年中,互联网的广泛可用性为数百万人提供了无缝访问在线平台的渠道。世界各国政府越来越多地利用这些平台直接收集来自市民的信息——被称为**市民举报**(Kopackova 和 Libalova 2019)。通过利用移动应用程序、网络门户和社交媒体整合等工具,市民举报平台在个人和相关部门之间建立了直接高效的通信联系,实现了更快的问题解决,并促进了公众在社区改进中的积极参与。除了即时问题解决,通过这些平台收集的实时数据为城市规划和主动措施提供了宝贵信息,为更高效和适应性的社区铺平了道路。市民举报通常涉及社区问题、环境挑战、犯罪预防、公共卫生和灾难应对等话题(Shin 等人 2024)。市民举报平台的一个特殊类别,例如 Safe City(https://webapp.safecity.in)、SHe-Box(https://shebox.wcd.gov.in)和 JDoe(https://jdoe.io),允许人们发布性骚扰、家庭暴力、暴力和袭击事件。表1 展示了用户在这样一个平台上共享的一些事件示例。虽然仅通过举报无法完全避免这些可怕事件,但这些事件举报平台在防止某些性侵犯案件中可以发挥至关重要的作用。通过使用户能够分析报告的事件、评估特定地点的安全性并在前往潜在热点时做出明智决定,这些平台有助于增强个人安全和意识。同样,当地部门也可以受益于这些平台,以评估新出现的案件、识别根本因素并确定有效解决的主动措施。然而,对部门的挑战是应对此类平台上的大量信息。手动审查所有帖子通常不切实际,需要一种摘要算法来识别和选择既多样化又代表原始数据的帖子。此外,事件举报平台通常在其主页上精心选择帖子来展示其核心目的、使命和服务。这种刻意的选择也充当了一种摘要形式。
摘要算法有两种类型:"提取式"和"抽象式"。在**提取式摘要**中,算法选择代表原始文本的子集(Xu 等人 2020;Zhong 等人 2020;Zhang 等人 2022;Dash 等人 2019;Zhang 等人 2023a)。相比之下,**抽象式摘要**算法生成捕捉原始文本本质的摘要,通常通过改写内容(Pu 等人 2023)。对于事件举报平台,提取式摘要更合适,因为目标不是改写帖子,而是选择少数几个准确捕捉原始内容快照的帖子。在总结这些敏感帖子时,保留用户的准确措辞至关重要,使得提取式摘要在保持真实性和背景方面特别有价值。
文献中提出了几种用户生成内容的提取式摘要算法,主要用于英文文本(Bhattacharya 等人 2021;Kanwal 和 Rizzo 2022;Mukherjee 等人 2020;Jia 等人 2020)。但有很多国家,英语不是主要语言,用户经常以混合代码形式交流。例如,印度承认22种官方语言,用户经常用 Hinglish(印地语和英语的混合)发布内容。这种多语言性限制了现有提取式摘要算法对事件帖子的适用性。近年来,大语言模型(LLMs)在多语言和混合代码设置中的各种任务上表现出了很好的性能(Ouyang 等人 2022;Brown 等人 2020;Tang 等人 2023a;Jin 等人 2024a)。此外,LLMs 生成的摘要展示了高度的连贯性,并且被人类评估者压倒性地优先选择于其他基准算法(Pu 等人 2023;Liu 等人 2024)。这些先前的结果激励我们调查 LLMs 对大量用户生成帖子提取式摘要的效用。然而,我们遇到了两个重大限制,阻碍了 LLMs 在提取式摘要中的直接应用:
1. 1. 作为生成模型,LLMs 通过改写而不是选择最相关句子来执行抽象式摘要(如图1 所示)(Worledge 等人 2024)。
2. 2. 由于上下文窗口大小有限,LLMs 无法在单个输入中处理长文本,突出了需要一种允许处理长文本的方法(Jin 等人 2024b)。
为了克服这些限制,在本文中,我们提出了一个新型框架 **LaMSUM**(基于大语言模型的提取式摘要),它整合了 LLM 生成的摘要与借鉴自社会选择理论的投票算法(Brandt 等人 2016)。我们对投票算法与多级摘要框架的谨慎应用确保 LaMSUM 优于最先进的微调摘要模型。总结来说,在这项工作中,我们做出了以下贡献:
- • 我们提出了一个新型框架 LaMSUM,它可以从大量(超过 30K 个标记的)用户生成内容集合生成提取式摘要。LaMSUM 考虑了一个多级摘要模型,利用投票算法来组合 LLM 输出以生成鲁棒摘要。
- • 使用事件帖子进行的广泛实验表明,LaMSUM 优于最先进的提取式摘要算法。据我们所知,这是第一项通过结合摘要和投票算法,使用 LLMs 实现大量用户生成文本提取式摘要的工作。同时,我们展示了这些算法的有效性,通过提供关于报告事件的可行见解,促进数据驱动决策,推动更安全社区的建设。
代码位于 https://github.com/garimachhikara128/LaMSUM
## 2 背景和相关工作
在本部分,我们回顾为我们当前研究提供基础的相关先前工作。

### 通过市民举报进行的AI解决方案
网络和社交媒体平台收到关于在线骚扰、仇恨言论、辱骂行为、暴力等敏感问题的帖子。用户遭受的滥用导致精神压力,通常迫使他们离开平台(Sambasivan 等人 2019;Thomas 等人 2022;Kim 等人 2024)。已经设计了几个 AI 驱动的解决方案来解决这些关键问题。机器学习分类器和语言模型被用于检测性虐待、仇恨言论、冒犯性语言、人口贩运和骚扰案件(Sawhney 等人 2021;Hassan 等人 2020;Davidson 等人 2017;Singh 等人 2025;Upadhayaye 等人 2021;Stoop 等人 2019;Ghosh Chowdhury 等人 2019)。使用社交网络和基于语言的特征对网络欺凌行为进行建模可以提高分类器性能(Ziems 等人 2020;Olteanu 等人 2018)。开发基于移动计算的举报工具赋予智力和发展障碍人群(I/DD)自我举报虐待和与目标群体分享事件的权力(Venkatsubramanian 等人 2021;Sultana 等人 2021)。随着公众人物鼓励女性勇敢发声,非匿名自我举报侵犯故事的数量已增加(ElSherief 等人 2017)。反驳言论被证明是阻止或暂停有问题信息或账户的可行替代方案,因为它更符合言论自由的原则(Mathew 等人 2019)。对话代理(CAs)因其匿名性等特征而作为潜在顾问引起了重大关注,这可以帮助解决与人际互动相关的许多挑战(Park 和 Lee 2021)。
### 用于摘要的大语言模型(LLMs)
LLMs 现在被广泛用于摘要(Brown 等人 2020;Tang 等人 2023a;Jin 等人 2024a)。多项工作提出了新闻、文档、网页和通用文本抽象摘要的少量学习框架(Zhang 等人 2023b;Tang 等人 2023b;Yang 等人 2023;Bražinskas 等人 2020;Laskar 等人 2023),但它们的主要关注点仍然是可以适应 LLM 上下文窗口的短文档。研究人员还观察到,人类评估者越来越倾向于选择 LLM 生成的摘要而非其他基准(Zhang 等人 2024;Wu 等人 2024;Goyal 等人 2023;Zhang 等人 2023c;Liu 等人 2024)。尽管有进步,最近的研究也在 LLM 生成的摘要中发现了事实不准确性和不一致(Tang 等人 2024;Tam 等人 2023;Luo 等人 2023;Laban 等人 2023)。
相似文章
大语言模型能否理解创伤影响?大语言模型编码枪支暴力幸存者访谈的成本与收益
本研究评估了开源大语言模型在对黑人枪支暴力幸存者访谈进行归纳编码中的应用,发现虽然大语言模型能够识别某些编码,但总体关联性仍然较低,且安全防护机制导致了叙事内容的严重缺失。该研究突显了在涉及脆弱群体的定性研究中应用人工智能的潜力和伦理限制。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
基于大型语言模型引导的半监督方法用于社交媒体危机数据分类
本文对利用大型语言模型(LLM)引导的半监督学习进行社交媒体危机数据分类进行了实证评估。研究表明,在低资源场景下,LG-CoTrain 的表现优于经典基线模型,并突显了将 LLM 知识迁移至更小、更易部署的模型以支持灾害响应的潜力。
谁的故事被讲述?生命叙事摘要中的立场性与偏见
哥伦比亚与西北大学研究者提出一套流程,揭示大模型在抽象摘要生命故事访谈时对种族与性别存在的偏见,并指出表征伤害风险。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。