Duluth 在 SemEval-2026 任务 6:用 LLM 增强数据揭开政治避答面纱的 DeBERTa 方法
摘要
明尼苏达大学德卢斯分校团队利用 Gemini 3 与 Claude Sonnet 4.5 生成的合成数据增强 DeBERTa-V3-base,对政治问题避答进行分类,在 SemEval-2026 任务 6 中排名第 8。
查看缓存全文
缓存时间: 2026/04/23 10:03
# Duluth 在 SemEval-2026 任务 6:用 LLM 增强数据的 DeBERTa 揭示政治回避问题
来源:https://arxiv.org/html/2604.20168
Shujauddin Syed & Ted Pedersen
明尼苏达大学德卢斯分校计算机科学系,美国 MN 55812
{syed0093, tpederse}@d.umn.edu
###### 摘要
本文介绍了 Duluth 参加 SemEval-2026 任务 6 “CLARITY:揭示政治回避” 的方案。我们同时解决任务 1(清晰度三分类)与任务 2(回避九分类),均需对美国总统访谈中的问答对按两级清晰度体系进行标注。系统以 DeBERTa-V3-base 为骨干,辅以 focal loss、逐层学习率衰减与布尔话语特征。针对训练集类别失衡,我们利用 Gemini 3 与 Claude Sonnet 4.5 为少数类合成样本。最佳配置在任务 1 评测集上取得 Macro F1 0.76,位列 40 支队伍第 8。榜首 TeleAI 得分为 0.89,全体平均 0.70。错误分析显示,主要混淆发生在 Ambivalent 与 Clear Reply 之间,这一模式与人类标注者分歧一致。实验表明,LLM 数据增强可显著提升政治话语少数类召回率。
## 1 引言
SemEval 2026 任务 6 要求自动识别并分类政治话语中的回避策略。任务采用 Thomas 等人(2024)提出的两级清晰度体系:任务 1 将问答对分为 Clear Reply、Ambivalent、Clear Non-Reply;任务 2 进一步细分为 9 种回避技巧。我们的 Gemini 增强系统在任务 1 测试集上获得 Macro F1 0.76,排名 40 队中第 8。错误分析表明,难点在于区分 Ambivalent 与 Clear Reply,恰与人类标注分歧一致。
## 2 任务描述
任务基于政治科学中的“含糊理论”(Bavelas 等,1988;Bull,1994;Bull & Strawson,2019),关注总统访谈中仅 39–46% 问题获直接回答的现象。
#### 任务 1 – 清晰度三分类:
给定问答对,将其映射至:
- Clear Reply:明确提供所问信息。
- Ambivalent:给出允许多种解读的回应(含蓄、笼统、部分或转移)。
- Clear Non-Reply:公开拒绝、声称不知或要求澄清。
形式化:学习 f₁:(q,a)→{1,2,3}。
#### 任务 2 – 回避九分类:
将同一问答对映射至 9 种细粒度技巧,分别隶属于上述三类。形式化:学习 f₂:(q,a)→{1,…,9}。
我们主提交针对任务 1,并探究任务 2 能否反哺任务 1。
## 3 相关研究
Ferracane 等(2021)通过众包采集主观“是否回答”与“是否真实”标签;Thomas 等(2024)提出 QEvasion 数据集,聚焦“清晰度”而非意图,并证明显式细粒度标签可提升高层分类。
为捕捉微妙语言并应对类别失衡,我们选用 DeBERTa-V3(He 等,2023),辅以 focal loss(Lin 等,2017)、EDA/语境感知合成(Wei & Zou,2019;Park 等,2024)及逐层学习率衰减(Zhang 等,2021)。
## 4 系统概览
### 4.1 类别失衡的数据增强
QEvasion 训练集分布:Ambivalent 59.2%(2040)、Clear Reply 30.5%(1052)、Clear Non-Reply 10.3%(356)。初步实验显示少数类 F1<0.40。
- 语境感知合成(CASA):Gemini 3 提取少数类修辞框架,与随机政治语境组合,生成 2672 条样本,使三类均达 2040 条,共 6120。
- 词汇改写(EDA 风格):Claude Sonnet 4.5 对答案做同替、插入、交换、删除(p=0.1),生成 1086 条,部分平衡至 4534 条。
人工抽检 50 样本质检。训练时对合成样本置信降权(Claude 0.5×,Gemini 0.7×)。
### 4.2 模型选择:为何 DeBERTa?
对比 DistilBERT、BERT、Political DEBATE,DeBERTa-V3-base 在未增强时已获 0.64 dev F1,遂选为骨干。
### 4.3 最终模型结构
- 布尔特征:affirmative_questions、multiple_questions 经 Linear→ReLU→Dropout 与池化输出拼接。
- 逐层学习率衰减:α=0.9 指数递减,保底层知识。
- focal loss:γ=2.0,α_t 为逆频率权重。
- 梯度累积 4 步,等效 batch=32;余弦退火,warmup 15%;早停 patience=3。
## 5 实验与结果
### 5.1 评估设置
QEvasion 提供 3448 训练、308 测试。我们按 80/20 分层划分出 2758/690 训练/开发。官方指标为 Macro F1。
### 5.2 排行榜表现
三种数据配置的 DeBERTa-V3-base 结果见表 2。Gemini 增强版测试得分最高,作为主提交。
任务 2 方面,DeBERTa-V3-large + focal loss 开发期 0.45(24 队第 9),评测期降至 0.28(33 队第 30),归因于分布漂移(见附录 D)。
任务 1 中,Gemini 增强系统测试 Macro F1 0.76,40 队第 8;榜首 0.89,平均 0.70。
### 5.3 与基线对比
附录表 6 显示,Gemini 增强 DeBERTa 全面超越经典及简单 Transformer 基线;多数类基线仅 0.27,证任务难度。
### 5.4 错误分析
测试集与评测集混淆矩阵分别见表 3、4。主要错误模式一致:Ambivalent↔Clear Reply 占全部错误 68%(测试)与 65%(评测)。
细粒度示例(附录 C):
- Ambivalent→Clear Reply:答案含直接陈述+限定词,模型仅捕获前者。
- Clear Reply→Ambivalent:直接但留有余地(“我相信我们会考虑筹资”),被误判。
- Clear Non-Reply:表面列数据实则回避,被误作 Ambivalent。
未来可引入对冲语言联合建模或外部政治话语知识。相似文章
RaguTeam参加SemEval-2026任务8:在法官协调的大语言模型集成中使用Meno及其伙伴进行忠实的多轮响应生成
本文介绍了SemEval-2026任务8生成子任务的获胜系统。该系统采用由七个大语言模型组成的异构集成,结合双重提示策略,并使用GPT-4o-mini作为裁判来挑选最佳响应。该系统以0.7827的条件调和平均数获得第一名,优于所有基线模型,证明了模型多样性的价值。
YEZE 参加 SemEval-2026 任务 9:通过异构集成检测多语言、多文化和多事件的网络极化
本文介绍了用于 SemEval-2026 任务 9 的 YEZE 系统,该系统利用 XLM-RoBERTa 和 mDeBERTa 模型的异构集成,检测 22 种语言中的网络极化现象。
评估大语言模型在社交媒体分析中的能力:多任务探索
犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试,引入新的采样方案与分类体系以减少偏差,打造可复现的评测基准。
面向自然语言理解任务的混合对抗防御框架
来自南安普顿大学和曼彻斯特大学的研究人员提出了一种面向大语言模型的混合对抗防御框架,该框架将基于熵、基于不确定性和基于几何的模型相结合,旨在同时应对自然语言理解任务中的幻觉问题和对抗性攻击漏洞,最终实现了高达 64.92% 的对抗鲁棒性提升和 62.27% 的攻击成功率降低。
SwanNLP在SemEval-2026任务5中的工作:用于叙述词义消歧中合理性评分的LLM框架
SwanNLP在SemEval-2026任务5中提出了一个基于LLM的合理性评分框架,用于叙述词义消歧任务。该框架采用结构化推理和动态少样本提示技术,预测短篇故事中词义的人类感知合理性。研究表明,通过少样本提示和模型集成,商用大参数语言模型能够有效复现真实叙述场景中的人类判断模式。