HumorRank:基于锦标赛的排行榜,用于评估大语言模型的幽默生成能力

arXiv cs.CL 论文

摘要

HumorRank 通过成对比较和 Bradley-Terry 最大似然估计,构建锦标赛式排行榜,对 LLM 的幽默生成进行排名,发现幽默质量取决于喜剧技巧而非模型规模。

arXiv:2604.19786v1 公告类型:新增 摘要:评估大语言模型(LLM)的幽默能力一直是个开放难题,因为现有方法只能给出孤立、不可比较的指标,无法形成统一的模型排名,难以追踪系统间的进展。我们提出 HumorRank,一个面向文本幽默生成的锦标赛式评估框架与排行榜。基于 SemEval-2026 MWAHAHA 测试集,我们对涵盖专有、开源及专用系统的九款模型进行大规模自动化成对评估。以广义言语幽默理论(GTVH)为基准的成对判断通过自适应瑞士制锦标赛汇总,Bradley-Terry 最大似然估计(MLE)生成全球一致的幽默生成能力排名。结果表明,HumorRank 能提供统计意义上可靠的模型分层,显示幽默质量由喜剧机制掌控而非单纯模型规模驱动。HumorRank 因而为基准测试和理解 LLM 生成幽默提供了可扩展、可解释的方法。
查看原文
查看缓存全文

缓存时间: 2026/04/23 10:02

# HumorRank:基于锦标赛的排行榜,用于评估大语言模型的幽默生成能力  
来源:https://arxiv.org/html/2604.19786  
Edward Ajayi  
卡内基梅隆大学非洲分校,卢旺达基加利  
[email protected]  
& Prasenjit Mitra  
卡内基梅隆大学非洲分校,卢旺达基加利  
[email protected]  

###### 摘要  
评估大语言模型(LLM)的幽默生成能力仍是一项开放挑战:现有方法各自产出孤立、不可比较的指标,而非统一的模型排序,导致难以跨系统追踪进展。我们提出 HumorRank——一套基于锦标赛的评估框架与排行榜,面向文本幽默生成。借助 SemEval-2026 MWAHAHA 测试集,我们对 9 个覆盖专有、开源及专用系统的模型进行大规模自动成对评估。以广义言语幽默理论(GTVH)为基准的成对判断,通过自适应瑞士制锦标赛汇总,再用 Bradley–Terry 最大似然估计(MLE)生成全球一致的幽默能力排序。实验表明,HumorRank 能给出统计意义明确的分层结果:幽默质量取决于对喜剧机制的掌握,而非单纯规模。HumorRank 因此为 LLM 幽默生成提供可扩展、可解释的基准方法。  

## 1 引言  
幽默生成要求对语言、语境和语用推理有极细腻的理解(Quan 等,2025;Kim & Chilton,2025),给 LLM 能力评估带来巨大挑战(Narad 等,2025)。现有方法碎片化:幽默检测(Ajayi & Mitra,2025b;Romanowski 等,2025)、标量打分(Goes 等,2022)、分类(Wu 等,2025a)、LLM-as-a-Judge(Shafiei & Saffari,2025)以及昂贵的人工偏好评估(Romanowski 等,2025;Horvitz 等,2024)互不兼容,无法产出统一排序,难以追踪进展。随着 LLM 越来越多地用于交互与创意场景,亟需可靠且可比较的幽默生成评估协议。  

为此,我们推出 HumorRank——面向语言模型幽默生成的排行榜框架。HumorRank 将评估建模为成对偏好问题,并将结果聚合为全局一致排序。我们在 SemEval-2026 Task 1: MWAHAHA 数据集(Castro 等,2026)上评估 9 个模型,展示可扩展、可解释且可复现的系统对比。贡献如下:  
1. 提出 HumorRank,将幽默评估形式化为跨模型全局排序问题。  
2. 将幽默评估形式化为成对偏好学习任务,证明 Bradley–Terry 估计可产出稳定可比的排序。  
3. 提出基于理论的 LLM-as-a-Judge 协议,生成结构化可解释信号,并在 SemEval-2026 MWAHAHA 测试集上完成大规模对比实验,跨裁判结果一致。  

## 2 HumorRank  
幽默的主观性与多维度给绝对打分带来根本难题。我们将幽默操作化定义为“连续认知奖励”,源于对故意构建的语言不一致性的成功消解(完整形式化见附录 A)。由于喜剧表达等词汇–语义特征难以直接量化(Winters & Van der Stockt,2025),成对比较可显著降低评估负荷并提高鲁棒性(Ravi 等,2024;Hossain 等,2020)。  

然而,成对信号离散且局部,无法直接支持系统级排行榜。HumorRank 通过两阶段流水线解决:  
1. 自适应瑞士制锦标赛,高效生成成对比较图;  
2. Bradley–Terry(BT)全局最大似然估计,将观测结果映射为统计意义明确的连续能力值。  
同时输出 Stable Elo 作为辅助参考。  

### 2.1 Bradley–Terry 全局最大似然估计  
BT 模型(Bradley & Terry,1952)是我们的主排序算法。通过最大化全锦标赛图的成对结果似然,估计各模型的潜在“幽默能力”得分。给定模型 i、j 的潜在得分 Ri、Rj,i 胜 j 的概率为  

P(i 胜 j) = 1 / (1 + 10^(Rj−Ri)/400)  (1)  

HumorRank 采用 MM 算法全局拟合 MLE,收敛容差 ε<10⁻⁶,基准分 1000。通过 100 次 bootstrap 重采样计算 95% 置信区间,确保分层统计显著。  

### 2.2 Stable Elo(序列参考)  
同时计算序列 Elo(Albers & Vries,2001)以跟踪动态稳定性:  

R_new = R_curr + K_fac·(S−E)  (2)  

K_fac=32,S∈{1,0.5,0},E 由式 (1) 给出。为消除顺序依赖,HumorRank 实施 Stable Elo:在 N=5 次随机拓扑排序上重放完整赛史,取终局评分均值,确保与序列无关(收敛证明见附录 I)。  

### 2.3 自适应瑞士制配对  
对大规模模型池, exhaustive O(K²) 成对比拼成本过高。HumorRank 引擎通过单参数 C_max 控制自适应瑞士配对:优先匹配同水平且未交过手的模型,每场比赛信息增益最大,以 O(K log K) 比较驱动 BT 收敛(算法 1)。  

算法 1 锦标赛自适应瑞士配对  
1: 模型集 M,最大比拼数 C_max,跟踪 Elo 分 R  
2: 初始化赛史图 G←(V=M,E=∅)  
3: while |E|<C_max do  
4:   按当前 R 排序 M  
5:   为每名次优先匹配未交手且分差最小对手  
6:   执行比拼并记录结果到 E  
7: end while  
8: 返回 G  

## 3 实验设置  
**模型**  
我们选 9 个代表:  
- 专有前沿:GPT-5、Kimi K2、Claude 3.5 Sonnet  
- 开源:Llama 3.3 70B、Qwen 2.5 72B、GPT-OSS-120B  
- 专用:HumorGen-7B、ComedyLLaMA-13B、JesterLM-8B  

**数据与提示**  
使用 SemEval-2026 MWAHAHA 测试集 1200 条提示,覆盖 6 种喜剧场景(日常、职场、科技、社交、家庭、教育)。  

**评估协议**  
每对同提示段子由 LLM 裁判(主裁判 Llama 3.3 70B,辅裁判 Qwen 2.5 72B)按 GTVH 六维模板输出结构化判断。共 10 800 场比拼,C_max=10 800 实现全覆盖。  

**实现**  
vLLM 部署,张量并行 8×A100,温度 0.3,top-p 0.95,输出 512 token。BT 与 Stable Elo 用 humrank 0.4.2 库。  

## 4 结果  

### 4.1 HumorRank  leaderboard 与模型分层  
表 1 与图 1 给出 BT 得分与 95% 置信区间。HumorRank 清晰划分三层:  
- 前沿层 >1100:GPT-5(1278.4)、Kimi K2(1197.1)  
- 竞争中层 970–1100:Claude 3.5、HumorGen-7B(1092.8)等  
- 弱基线 <800  

值得注意的是,专用模型 HumorGen-7B(第 4 名)以 7B 参数超越 120B 的 GPT-OSS-120B(第 6 名),表明机制 mastery 比规模更重要。Llama 3.3 70B 裁判将自己排第 8(761.0),有力反驳了“自偏”担忧。  

### 4.2 跨裁判有效性与排序稳定性  
用 Qwen 2.5 72B 重跑相同 10 800 场,BT 排序与主榜 Kendall τ=0.889(p<0.01),头尾模型完全不变,中层轻微波动,传递性得分 1.0,验证 BT 建模适用性。  

### 4.3 人工评估  
盲评 60 对,n=2 时 Krippendorff α=0.432,n=3 降至 0.397,证实幽默主观性。详情见附录 H。  

### 4.4 基于理论的特征可解释性  
HumorRank 采用 GTVH 分层心理测量模型(表 2),将 1 万条胜场自动标注为幽默机制、表达特征与失败模式:  

- 前沿通才(如 GPT-5):靠极致简洁(Conciseness 占胜场 30%)+ 标准不一致,失败主因陈词滥调。  
- 荒诞专家(如 HumorGen-7B):以深度结构取胜,Absurdity 25.8%、Sarcasm 9.2% 全场最高,靠 Escalation 而非简短。  
- 弱基线(如 Llama 70B):表面文字游戏占比 29.5%,45% 失败标签为 Weak Punchline,缺乏结构投入。  

图 2 展示各模型胜出特征分布;图 3 显示失败模式。HumorGen-7B 的 Overexplained(25.2%)与 Buried Punchline(20.4%)显著高于他模,表明其深层策略偶尔过火。  

(附录 F 提供 Qwen 裁判对应图表,结果一致。)

相似文章