HumorRank：基于锦标赛的排行榜，用于评估大语言模型的幽默生成能力

arXiv cs.CL 2026/04/23 04:00 论文

摘要

HumorRank 通过成对比较和 Bradley-Terry 最大似然估计，构建锦标赛式排行榜，对 LLM 的幽默生成进行排名，发现幽默质量取决于喜剧技巧而非模型规模。

arXiv:2604.19786v1 公告类型：新增摘要：评估大语言模型（LLM）的幽默能力一直是个开放难题，因为现有方法只能给出孤立、不可比较的指标，无法形成统一的模型排名，难以追踪系统间的进展。我们提出 HumorRank，一个面向文本幽默生成的锦标赛式评估框架与排行榜。基于 SemEval-2026 MWAHAHA 测试集，我们对涵盖专有、开源及专用系统的九款模型进行大规模自动化成对评估。以广义言语幽默理论（GTVH）为基准的成对判断通过自适应瑞士制锦标赛汇总，Bradley-Terry 最大似然估计（MLE）生成全球一致的幽默生成能力排名。结果表明，HumorRank 能提供统计意义上可靠的模型分层，显示幽默质量由喜剧机制掌控而非单纯模型规模驱动。HumorRank 因而为基准测试和理解 LLM 生成幽默提供了可扩展、可解释的方法。

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:02

# HumorRank：基于锦标赛的排行榜，用于评估大语言模型的幽默生成能力  
来源：https://arxiv.org/html/2604.19786  
Edward Ajayi  
卡内基梅隆大学非洲分校，卢旺达基加利  
[email protected]  
& Prasenjit Mitra  
卡内基梅隆大学非洲分校，卢旺达基加利  
[email protected]  

###### 摘要  
评估大语言模型（LLM）的幽默生成能力仍是一项开放挑战：现有方法各自产出孤立、不可比较的指标，而非统一的模型排序，导致难以跨系统追踪进展。我们提出 HumorRank——一套基于锦标赛的评估框架与排行榜，面向文本幽默生成。借助 SemEval-2026 MWAHAHA 测试集，我们对 9 个覆盖专有、开源及专用系统的模型进行大规模自动成对评估。以广义言语幽默理论（GTVH）为基准的成对判断，通过自适应瑞士制锦标赛汇总，再用 Bradley–Terry 最大似然估计（MLE）生成全球一致的幽默能力排序。实验表明，HumorRank 能给出统计意义明确的分层结果：幽默质量取决于对喜剧机制的掌握，而非单纯规模。HumorRank 因此为 LLM 幽默生成提供可扩展、可解释的基准方法。  

## 1 引言  
幽默生成要求对语言、语境和语用推理有极细腻的理解（Quan 等，2025；Kim & Chilton，2025），给 LLM 能力评估带来巨大挑战（Narad 等，2025）。现有方法碎片化：幽默检测（Ajayi & Mitra，2025b；Romanowski 等，2025）、标量打分（Goes 等，2022）、分类（Wu 等，2025a）、LLM-as-a-Judge（Shafiei & Saffari，2025）以及昂贵的人工偏好评估（Romanowski 等，2025；Horvitz 等，2024）互不兼容，无法产出统一排序，难以追踪进展。随着 LLM 越来越多地用于交互与创意场景，亟需可靠且可比较的幽默生成评估协议。  

为此，我们推出 HumorRank——面向语言模型幽默生成的排行榜框架。HumorRank 将评估建模为成对偏好问题，并将结果聚合为全局一致排序。我们在 SemEval-2026 Task 1: MWAHAHA 数据集（Castro 等，2026）上评估 9 个模型，展示可扩展、可解释且可复现的系统对比。贡献如下：  
1. 提出 HumorRank，将幽默评估形式化为跨模型全局排序问题。  
2. 将幽默评估形式化为成对偏好学习任务，证明 Bradley–Terry 估计可产出稳定可比的排序。  
3. 提出基于理论的 LLM-as-a-Judge 协议，生成结构化可解释信号，并在 SemEval-2026 MWAHAHA 测试集上完成大规模对比实验，跨裁判结果一致。  

## 2 HumorRank  
幽默的主观性与多维度给绝对打分带来根本难题。我们将幽默操作化定义为“连续认知奖励”，源于对故意构建的语言不一致性的成功消解（完整形式化见附录 A）。由于喜剧表达等词汇–语义特征难以直接量化（Winters & Van der Stockt，2025），成对比较可显著降低评估负荷并提高鲁棒性（Ravi 等，2024；Hossain 等，2020）。  

然而，成对信号离散且局部，无法直接支持系统级排行榜。HumorRank 通过两阶段流水线解决：  
1. 自适应瑞士制锦标赛，高效生成成对比较图；  
2. Bradley–Terry（BT）全局最大似然估计，将观测结果映射为统计意义明确的连续能力值。  
同时输出 Stable Elo 作为辅助参考。  

### 2.1 Bradley–Terry 全局最大似然估计  
BT 模型（Bradley & Terry，1952）是我们的主排序算法。通过最大化全锦标赛图的成对结果似然，估计各模型的潜在“幽默能力”得分。给定模型 i、j 的潜在得分 Ri、Rj，i 胜 j 的概率为  

P(i 胜 j) = 1 / (1 + 10^(Rj−Ri)/400)  (1)  

HumorRank 采用 MM 算法全局拟合 MLE，收敛容差 ε<10⁻⁶，基准分 1000。通过 100 次 bootstrap 重采样计算 95% 置信区间，确保分层统计显著。  

### 2.2 Stable Elo（序列参考）  
同时计算序列 Elo（Albers & Vries，2001）以跟踪动态稳定性：  

R_new = R_curr + K_fac·(S−E)  (2)  

K_fac=32，S∈{1,0.5,0}，E 由式 (1) 给出。为消除顺序依赖，HumorRank 实施 Stable Elo：在 N=5 次随机拓扑排序上重放完整赛史，取终局评分均值，确保与序列无关（收敛证明见附录 I）。  

### 2.3 自适应瑞士制配对  
对大规模模型池， exhaustive O(K²) 成对比拼成本过高。HumorRank 引擎通过单参数 C_max 控制自适应瑞士配对：优先匹配同水平且未交过手的模型，每场比赛信息增益最大，以 O(K log K) 比较驱动 BT 收敛（算法 1）。  

算法 1 锦标赛自适应瑞士配对  
1: 模型集 M，最大比拼数 C_max，跟踪 Elo 分 R  
2: 初始化赛史图 G←(V=M,E=∅)  
3: while |E|<C_max do  
4:   按当前 R 排序 M  
5:   为每名次优先匹配未交手且分差最小对手  
6:   执行比拼并记录结果到 E  
7: end while  
8: 返回 G  

## 3 实验设置  
**模型**  
我们选 9 个代表：  
- 专有前沿：GPT-5、Kimi K2、Claude 3.5 Sonnet  
- 开源：Llama 3.3 70B、Qwen 2.5 72B、GPT-OSS-120B  
- 专用：HumorGen-7B、ComedyLLaMA-13B、JesterLM-8B  

**数据与提示**  
使用 SemEval-2026 MWAHAHA 测试集 1200 条提示，覆盖 6 种喜剧场景（日常、职场、科技、社交、家庭、教育）。  

**评估协议**  
每对同提示段子由 LLM 裁判（主裁判 Llama 3.3 70B，辅裁判 Qwen 2.5 72B）按 GTVH 六维模板输出结构化判断。共 10 800 场比拼，C_max=10 800 实现全覆盖。  

**实现**  
vLLM 部署，张量并行 8×A100，温度 0.3，top-p 0.95，输出 512 token。BT 与 Stable Elo 用 humrank 0.4.2 库。  

## 4 结果  

### 4.1 HumorRank  leaderboard 与模型分层  
表 1 与图 1 给出 BT 得分与 95% 置信区间。HumorRank 清晰划分三层：  
- 前沿层 >1100：GPT-5（1278.4）、Kimi K2（1197.1）  
- 竞争中层 970–1100：Claude 3.5、HumorGen-7B（1092.8）等  
- 弱基线 <800  

值得注意的是，专用模型 HumorGen-7B（第 4 名）以 7B 参数超越 120B 的 GPT-OSS-120B（第 6 名），表明机制 mastery 比规模更重要。Llama 3.3 70B 裁判将自己排第 8（761.0），有力反驳了“自偏”担忧。  

### 4.2 跨裁判有效性与排序稳定性  
用 Qwen 2.5 72B 重跑相同 10 800 场，BT 排序与主榜 Kendall τ=0.889（p<0.01），头尾模型完全不变，中层轻微波动，传递性得分 1.0，验证 BT 建模适用性。  

### 4.3 人工评估  
盲评 60 对，n=2 时 Krippendorff α=0.432，n=3 降至 0.397，证实幽默主观性。详情见附录 H。  

### 4.4 基于理论的特征可解释性  
HumorRank 采用 GTVH 分层心理测量模型（表 2），将 1 万条胜场自动标注为幽默机制、表达特征与失败模式：  

- 前沿通才（如 GPT-5）：靠极致简洁（Conciseness 占胜场 30%）+ 标准不一致，失败主因陈词滥调。  
- 荒诞专家（如 HumorGen-7B）：以深度结构取胜，Absurdity 25.8%、Sarcasm 9.2% 全场最高，靠 Escalation 而非简短。  
- 弱基线（如 Llama 70B）：表面文字游戏占比 29.5%，45% 失败标签为 Weak Punchline，缺乏结构投入。  

图 2 展示各模型胜出特征分布；图 3 显示失败模式。HumorGen-7B 的 Overexplained（25.2%）与 Buried Punchline（20.4%）显著高于他模，表明其深层策略偶尔过火。  

（附录 F 提供 Qwen 裁判对应图表，结果一致。）

HumorRank：基于锦标赛的排行榜，用于评估大语言模型的幽默生成能力

相似文章

lmfaoooo在SemEval-2026任务1：幽默即受众——约束幽默生成中的偏好建模

多模态大语言模型的计算幽默：方法、数据集、评估与挑战

多模态大语言模型的计算幽默：方法、数据集、评估与挑战

超越玩笑：多角度推理用于检测和解释模因中的有害幽默

量化LLM基准中的排名不确定性

提交意见反馈