基于社区的立场分布与论点组织方法

arXiv cs.CL 论文

摘要

# 基于社区的立场分布与论点组织方法 来源:[https://arxiv.org/html/2604.16852](https://arxiv.org/html/2604.16852) \\jvol vv\\jnumnn\\jyear2025\\dochead\\pageonefooter行动编辑:\{action editor name\}。收稿日期:DD Month YYYY;修改稿日期:DD Month YYYY;录用日期:DD Month YYYY。\\affilblock Laks V. S. Lakshmanan2 Raymond T. Ng3 University of British Columbia University of British Columbia University of Bri

arXiv:2604.16852v1 公布类型:新 摘要:在线辩论平台与社会媒体的普及,使得围绕争议性议题产生的多视角论辩内容呈现出前所未有的规模。尽管这些丰富的观点为培养批判性思维与打破过滤气泡(Pariser 2011)提供了契机,但论点数量的庞大与结构的复杂使得读者难以有效整合并理解多元视角。为此,我们提出了一种基于图的无监督社区驱动型论点组织方法,旨在协助用户导航并解析复杂的论辩格局。本系统通过分析主题聚焦的文章集合,捕捉论点间多种关系类型(包括主题相似度、语义连贯性、共享关键词及共同实体),从而构建出丰富的交互图谱。随后,我们运用社区发现算法识别出能揭示同质与异质观点分布的论点社区。通过对社区进行策略性的图简化操作,系统将结果提炼为用户易于阅读且全面的关键论辩模式摘要。该方法无需任何训练数据,即可高效处理数百篇文章,同时完整保留论点间的细粒度关联。实验结果表明,本系统能够有效识别具有实际意义的论点社区,并以可解释的方式将其呈现,从而促进用户对复杂社会政治议题辩论的理解。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:04

# 基于社区的方法用于立场分布与论点组织 来源:https://arxiv.org/html/2604.16852 \\jvol vv\\jnumnn\\jyear2025\\dochead\\pageonefooter操作编辑:\{action editor name\}\. 投稿接收日期:YYYY年MM月DD日;修订版接收日期:YYYY年MM月DD日;正式录用日期:YYYY年MM月DD日\. \\affilblock Laks V\. S\. Lakshmanan2 Raymond T\. Ng3不列颠哥伦比亚大学 不列颠哥伦比亚大学 不列颠哥伦比亚大学 ###### 摘要 在线辩论平台与社交媒体的普及,导致关于争议性话题的论述内容呈爆炸式增长,且涵盖多元视角。尽管这些丰富的视角为培养批判性思维和打破“信息茧房”(pariser2011filter)提供了契机,但海量的观点及其复杂性使得读者难以有效综合并理解不同的立场。本文提出了一种无监督的基于图论的方法,用于基于社区的论点组织,帮助用户导航和理解复杂的论战国景。该系统分析面向特定主题的文章集合,通过捕捉论点间的多种关系类型(主题相似性、语义连贯性、共享关键词及共同实体),构建丰富的交互图。随后,我们采用社区检测算法识别论点社区,揭示同质性与异质性立场分布。检测到的社区经过战略性图运算进行简化,向用户呈现既易读又全面的**关键论点模式**。本方法无需训练数据,能有效处理数百篇文章,同时保留论点间细微的关系。实验结果表明,我们的系统能够识别具有意义的论点社区并以可解释的方式呈现,从而促进用户对复杂社会政治辩论的理解。 ## 1引言 数字时代彻底改变了个人获取争议性话题信息的方式。旨在最大化用户参与度的现代搜索引擎和社交媒体平台,往往优先推送符合用户既有信念和偏好的内容,从而形成“信息茧房”。这些茧房将用户隔离于多元视角之外,严重阻碍了不同利益相关者之间的知情且建设性的对话,也系统性限制了接触反面论证的机会,进而影响政策制定(Ekströmet al.,2022 (https://arxiv.org/html/2604.16852#bib.bib134); Wolfowiczet al.,2023 (https://arxiv.org/html/2604.16852#bib.bib135); Ross Arguedaset al.,2022 (https://arxiv.org/html/2604.16852#bib.bib136))。了解对争议性话题的观点,始于识别“立场”——即作者对某一主张所持的态度,通常分为支持、反对或中立。立场检测在计算语言学中已有广泛研究,侧重于自动识别单篇文章或社交媒体帖子中的此类态度。然而,仅靠立场检测只能提供论战国景的表面视图。知道某篇文章反对枪支管制只能告诉我们其立场,却无法揭示背后的推理逻辑——作者是依据宪法权利、公共安全数据还是个人自由关切进行论证?要在大规模文章集中捕捉对争议议题的全面观点光谱,必须分析立场的分布情况。然而,传统简单聚合立场分类的方法仅提供粗粒度视图。例如,“40%的文章支持枪支管制,60%反对”这一数据无法揭示支撑这些立场的多样化推理框架。 

在本研究中,**立场分布**指的并非仅仅是立场比例的简单汇总,而是对论证视角的分布进行分析——即作者看待争议性主张时所采用的独特主题性推理框架。立场分布与论证推理密切相关。全面的立场分布分析将揭示一个精细的国景:某些视角可能呈现共识(同质立场分布,即同一视角内的论点基本一致),而其他视角则表现出极化(异质分布,同一推理框架内存在竞争观点)。在图1 (https://arxiv.org/html/2604.16852#S1.F1) 中,我们展示了六篇围绕主张“应颁布更多枪支管制法律”的文章,其中文章1、4、5对该主张采取左翼立场(蓝色方框),而2、3、6采取右翼立场(红色方框)**相对于该主张**。对此示例进行细粒度分析可揭示不同视角:文章1、2、5、6聚焦于枪支管制法律中第二修正案的影响;文章2、3、4则关注枪支管制法律在不同国家的影响。这种颗粒度极高的视角级分析对于曝光完整观点光谱至关重要,它能浮现主流与被边缘化的叙事、媒体报道中的潜在偏见,以及意见达成一致或分歧集中的具体议题维度。唯有通过这种视角级的立场分布分析,研究者才能深入洞察论战国景,打破信息茧房,并在复杂的社会政治问题上促进更明智的决策。

近期的论点挖掘与摘要研究表明,跨多篇文章的论点往往会围绕共同的主题或视角聚集,即使它们是独立撰写的(Hasan and Ng,2014 (https://arxiv.org/html/2604.16852#bib.bib77); Trabelsi and Zaiane,2019 (https://arxiv.org/html/2604.16852#bib.bib79); Trabelsi and Zaïane,2019 (https://arxiv.org/html/2604.16852#bib.bib130); Quraishiet al.,2018 (https://arxiv.org/html/2604.16852#bib.bib131); Jurkschatet al.,2022 (https://arxiv.org/html/2604.16852#bib.bib132))。受此启发,我们探讨了一个有趣的研究问题:“如何设计一个基于主题的论点组织系统,以帮助用户理解立场分布及争议性话题上的观点国景?”此类系统可在每个主题社区内揭示同质性(作者基本一致)与异质性(存在显著分歧)模式,同时确保社区内的论点连贯、切题且具有信息量。

分析立场分布对社会政治议题尤为关键。这类议题处于政治意识形态、公共政策与社会价值观的交叉点,多方利益群体持有竞争性视角。实例包括枪支管制、堕胎、移民、医疗政策和气候变化。这些议题带来的独特挑战使得理解立场分布变得格外复杂。首先,社会政治议题的论点援引了根本不同的视角——即塑造立场支持或反对方式的底层推理主题。例如,在支持“全国范围内应禁止堕胎”的主张时,一篇文章可能援引“生命始于受精”和“避孕强制令”这两个视角。两位持相同立场的作者可能基于完全不同的视角进行推理:两人都反对全国堕胎禁令,但一方基于身体自主权(“全国堕胎禁令将不公地剥夺女性对自身身体的自主权”)进行论证,另一方则基于公共健康后果。识别这些视角绝非易事,因为它们在文章中极少被明确表述,需要复杂的语义分析来揭示底层推理主题。这种隐性特征使得传统的基于关键词或表面层次的分析显得力不从心。

其次,视角本质上具有上下文依赖性和动态性。针对同一主张的不同讨论,可能会根据时事、文化背景或话语焦点的不同,援引截然不同的视角集。这种动态特性使得依赖预定义视角类别(Bar\-Haimet al.\(2020a (https://arxiv.org/html/2604.16852#bib.bib129); Jurkschatet al.\(2022 (https://arxiv.org/html/2604.16852#bib.bib132)\))或现有分类数据集(Hasan and Ng (2014 (https://arxiv.org/html/2604.16852#bib.bib77))变得不切实际,因为此类方法不可避免地会使模型依赖于特定领域,且无法捕捉涌现的视角。

第三,复杂性进一步增加,因为:\(1\) 单篇文章可能包含对某一视角的支持与反对论点,例如在陈述对该主张的最终立场前,先展示关于“避孕强制令”的冲突观点;\(2\) 多篇文章可能对共享视角提供相互对立的论证——一方声称“全国堕胎禁令将保护胚胎固有的生命权”,另一方辩称“全国堕胎禁令将不公地剥夺女性对身体自主权”,两者均与“生命始于受精”这一视角相关。

第四,即使成功将论点划分为不同视角,每个视角下仍可能积累海量论点。大量独立创作的内容使得个人难以把握完整的视角版图,也难以辨别共识区与冲突区。现有的论点划分方法通常采用基于列表的聚类呈现方式(Dumaniet al.,2021 (https://arxiv.org/html/2604.16852#bib.bib133); Trabelsi and Zaïane,2019 (https://arxiv.org/html/2604.16852#bib.bib130); Alshomaryet al.,2021 (https://arxiv.org/html/2604.16852#bib.bib125))。虽然这提供了一定的组织结构,但未能捕捉和传达论点之间的**关系**,导致用户难以理解为何某些论点被归为一类或彼此如何关联。此外,这些方法往往未明确解决帮助用户理解对立论点的问题。作者各异写作风格、论证结构和专业水平进一步加剧了这一挑战。

理解论点分组及其关系至关重要,原因如下:首先,若看不到论点**如何**连接——通过共享实体、关键词、主题或语义意义——用户便难以理解论点**为何**属于同一视角,这会降低对组织结构的信任,并限制他们驾驭复杂辩论的能力。其次,关系揭示了推理的结构。第三,在争议性辩论中,用户需要的不仅是孤立的观点,而是围绕共同主题的支持与反对论点网络,以便做出明智判断。无论是分析利益相关者立场的政策制定者、识别新兴叙事的记者,还是寻求理解多重观点的市民,论点之间的**联系**(而非单纯的分组)都为综合信息与决策提供了关键语境。传统的列表式呈现模糊了这些联系,使用户面对的是割裂的语句集合,而非连贯的论战国景图谱。 参见图1说明:顶部行 – 一个示例主张;中间两行 – 与该主张相关的六篇文章,每篇文章的立场通过方框颜色显示(蓝色代表左翼立场,红色代表右翼立场);底部行 – 我们系统的演示输出,将前两行的论点整合为基于图的社区,每个社区都是一个双极性二分图,揭示了论点交互的争议性本质;边标签代表论点间不同类型的关系:\(e\)、\(k\)、\(s\) 和 \(t\) 分别表示实体、关键词、语义和主题相似性边。

为应对上述挑战,我们引入了一种基于图的方法,将论点组织成社区,使复杂视角的相互作用更易于理解。我们的方法首先使用修辞解析从文章中提取关键论点(Sahaet al.,2024 (https://arxiv.org/html/2604.16852#bib.bib1))。接着,我们构建交互图,其中节点代表单个论点,边捕捉它们之间的各种关系,如语义相似性、共享主题、共同关键词或匹配的实体(例如,“第二修正案”或“美国”)。利用社区检测和定向图运算,我们将相关论点聚集成有意义的社区,如图2 (https://arxiv.org/html/2604.16852#S4.F2) 所示。每个社区是一个无向图,节点为论点,边展示共享关键词或实体等关系。这些社区揭示了不同的立场分布:单一立场(所有论点均倾向左、右或中)、双重立场(论点在左-右、左-中或右-中之间分裂)或混合立场(论点横跨左、右、中)。例如,图1 (https://arxiv.org/html/2604.16852#S1.F1)(底部行)展示了两个论点社区。社区A聚焦于对枪支管制法律中第二修正案的解释。例如,论点“第二修正案并未……拥有枪支”与“美国第二修正案……枪支所有权”通过共享关键词“第二修正案”相连。社区B探讨了各国枪支管制政策的有效性,由于共同实体“美国”,论点“限制性较强的国家……比美国……”与“严格的枪支管制……在美国……”得以关联。

在这些社区内部,我们通过专注于双极性二分图结构来强调细腻的交互作用。在该结构中,节点被划分为代表对立立场的两个部分(例如,左翼 vs. 右翼),当论点间存在强语义、主题或基于实体的关系时,边会跨越分区连接论点。该结构通过追踪最长的跨立场路径来突出关键论点交锋,使用户能够观察对立论点如何在同一主题内互动,而非孤立看待它们。

我们采用基于图的结构,是因为跨多篇独立撰写文章的论点形成了一个错综复杂的关系网,线性列表或单一层级结构无法充分捕捉。论点间可能以多种方式同时关联:两个论点可能共享同一实体(如“第二修正案”)同时又具备语义相似性;三个论点可能围绕共同子主题聚集却呈现对立立场。图天然地通过类型化边对这些多维关系进行建模,使我们能够保留解释论点为何归类的丰富互联性。这种基于图的方法论相较于传统列表式方法具有明显优势,后者将论点作为集群中彼此独立的项呈现,且不解释其关系。列表虽可按相似性分组论点,却未能阐明**为何**归类在一起或**如何**互动——是共享实体?共同主题?还是语义对齐?相比之下,我们的图通过类型化边使关系显式化,使用户能追溯联系并理解视角的结构。此外,不同于强制单一父子关系的树形层级,图容纳了论点以多种方式与其他多个论点关联的情况,真实反映了多文辩论的真正复杂性。我们的方法确保了期望的

相似文章

基于 TIDE 的稳健议论文理解:一种融合试炼与辩论的交互框架

arXiv cs.AI

本文介绍了 TIDE,一种新颖的框架,它整合了试炼与辩论机制,以改善基于标准的提示优化,用于议论文理解任务,如自动作文评分、论证成分检测和论证关系识别。实验结果显示性能提升,突显了结合基于提示的方法进行鲁棒论证分析的潜力。

GraphReAct:面向多步图推理的推理与行动

arXiv cs.AI

本文介绍了 GraphReAct,这是一个将推理与行动范式扩展到图结构数据以进行多步推理的框架。它结合了拓扑检索、语义检索以及上下文精炼,以提升在图学习基准测试上的性能。