HumorRank:基于锦标赛的排行榜,用于评估大语言模型的幽默生成能力
摘要
HumorRank 通过成对比较和 Bradley-Terry 最大似然估计,构建锦标赛式排行榜,对 LLM 的幽默生成进行排名,发现幽默质量取决于喜剧技巧而非模型规模。
arXiv:2604.19786v1 公告类型:新增
摘要:评估大语言模型(LLM)的幽默能力一直是个开放难题,因为现有方法只能给出孤立、不可比较的指标,无法形成统一的模型排名,难以追踪系统间的进展。我们提出 HumorRank,一个面向文本幽默生成的锦标赛式评估框架与排行榜。基于 SemEval-2026 MWAHAHA 测试集,我们对涵盖专有、开源及专用系统的九款模型进行大规模自动化成对评估。以广义言语幽默理论(GTVH)为基准的成对判断通过自适应瑞士制锦标赛汇总,Bradley-Terry 最大似然估计(MLE)生成全球一致的幽默生成能力排名。结果表明,HumorRank 能提供统计意义上可靠的模型分层,显示幽默质量由喜剧机制掌控而非单纯模型规模驱动。HumorRank 因而为基准测试和理解 LLM 生成幽默提供了可扩展、可解释的方法。
查看缓存全文
缓存时间: 2026/04/23 10:02
# HumorRank:基于锦标赛的排行榜,用于评估大语言模型的幽默生成能力 来源:https://arxiv.org/html/2604.19786 Edward Ajayi 卡内基梅隆大学非洲分校,卢旺达基加利 [email protected] & Prasenjit Mitra 卡内基梅隆大学非洲分校,卢旺达基加利 [email protected] ###### 摘要 评估大语言模型(LLM)的幽默生成能力仍是一项开放挑战:现有方法各自产出孤立、不可比较的指标,而非统一的模型排序,导致难以跨系统追踪进展。我们提出 HumorRank——一套基于锦标赛的评估框架与排行榜,面向文本幽默生成。借助 SemEval-2026 MWAHAHA 测试集,我们对 9 个覆盖专有、开源及专用系统的模型进行大规模自动成对评估。以广义言语幽默理论(GTVH)为基准的成对判断,通过自适应瑞士制锦标赛汇总,再用 Bradley–Terry 最大似然估计(MLE)生成全球一致的幽默能力排序。实验表明,HumorRank 能给出统计意义明确的分层结果:幽默质量取决于对喜剧机制的掌握,而非单纯规模。HumorRank 因此为 LLM 幽默生成提供可扩展、可解释的基准方法。 ## 1 引言 幽默生成要求对语言、语境和语用推理有极细腻的理解(Quan 等,2025;Kim & Chilton,2025),给 LLM 能力评估带来巨大挑战(Narad 等,2025)。现有方法碎片化:幽默检测(Ajayi & Mitra,2025b;Romanowski 等,2025)、标量打分(Goes 等,2022)、分类(Wu 等,2025a)、LLM-as-a-Judge(Shafiei & Saffari,2025)以及昂贵的人工偏好评估(Romanowski 等,2025;Horvitz 等,2024)互不兼容,无法产出统一排序,难以追踪进展。随着 LLM 越来越多地用于交互与创意场景,亟需可靠且可比较的幽默生成评估协议。 为此,我们推出 HumorRank——面向语言模型幽默生成的排行榜框架。HumorRank 将评估建模为成对偏好问题,并将结果聚合为全局一致排序。我们在 SemEval-2026 Task 1: MWAHAHA 数据集(Castro 等,2026)上评估 9 个模型,展示可扩展、可解释且可复现的系统对比。贡献如下: 1. 提出 HumorRank,将幽默评估形式化为跨模型全局排序问题。 2. 将幽默评估形式化为成对偏好学习任务,证明 Bradley–Terry 估计可产出稳定可比的排序。 3. 提出基于理论的 LLM-as-a-Judge 协议,生成结构化可解释信号,并在 SemEval-2026 MWAHAHA 测试集上完成大规模对比实验,跨裁判结果一致。 ## 2 HumorRank 幽默的主观性与多维度给绝对打分带来根本难题。我们将幽默操作化定义为“连续认知奖励”,源于对故意构建的语言不一致性的成功消解(完整形式化见附录 A)。由于喜剧表达等词汇–语义特征难以直接量化(Winters & Van der Stockt,2025),成对比较可显著降低评估负荷并提高鲁棒性(Ravi 等,2024;Hossain 等,2020)。 然而,成对信号离散且局部,无法直接支持系统级排行榜。HumorRank 通过两阶段流水线解决: 1. 自适应瑞士制锦标赛,高效生成成对比较图; 2. Bradley–Terry(BT)全局最大似然估计,将观测结果映射为统计意义明确的连续能力值。 同时输出 Stable Elo 作为辅助参考。 ### 2.1 Bradley–Terry 全局最大似然估计 BT 模型(Bradley & Terry,1952)是我们的主排序算法。通过最大化全锦标赛图的成对结果似然,估计各模型的潜在“幽默能力”得分。给定模型 i、j 的潜在得分 Ri、Rj,i 胜 j 的概率为 P(i 胜 j) = 1 / (1 + 10^(Rj−Ri)/400) (1) HumorRank 采用 MM 算法全局拟合 MLE,收敛容差 ε<10⁻⁶,基准分 1000。通过 100 次 bootstrap 重采样计算 95% 置信区间,确保分层统计显著。 ### 2.2 Stable Elo(序列参考) 同时计算序列 Elo(Albers & Vries,2001)以跟踪动态稳定性: R_new = R_curr + K_fac·(S−E) (2) K_fac=32,S∈{1,0.5,0},E 由式 (1) 给出。为消除顺序依赖,HumorRank 实施 Stable Elo:在 N=5 次随机拓扑排序上重放完整赛史,取终局评分均值,确保与序列无关(收敛证明见附录 I)。 ### 2.3 自适应瑞士制配对 对大规模模型池, exhaustive O(K²) 成对比拼成本过高。HumorRank 引擎通过单参数 C_max 控制自适应瑞士配对:优先匹配同水平且未交过手的模型,每场比赛信息增益最大,以 O(K log K) 比较驱动 BT 收敛(算法 1)。 算法 1 锦标赛自适应瑞士配对 1: 模型集 M,最大比拼数 C_max,跟踪 Elo 分 R 2: 初始化赛史图 G←(V=M,E=∅) 3: while |E|<C_max do 4: 按当前 R 排序 M 5: 为每名次优先匹配未交手且分差最小对手 6: 执行比拼并记录结果到 E 7: end while 8: 返回 G ## 3 实验设置 **模型** 我们选 9 个代表: - 专有前沿:GPT-5、Kimi K2、Claude 3.5 Sonnet - 开源:Llama 3.3 70B、Qwen 2.5 72B、GPT-OSS-120B - 专用:HumorGen-7B、ComedyLLaMA-13B、JesterLM-8B **数据与提示** 使用 SemEval-2026 MWAHAHA 测试集 1200 条提示,覆盖 6 种喜剧场景(日常、职场、科技、社交、家庭、教育)。 **评估协议** 每对同提示段子由 LLM 裁判(主裁判 Llama 3.3 70B,辅裁判 Qwen 2.5 72B)按 GTVH 六维模板输出结构化判断。共 10 800 场比拼,C_max=10 800 实现全覆盖。 **实现** vLLM 部署,张量并行 8×A100,温度 0.3,top-p 0.95,输出 512 token。BT 与 Stable Elo 用 humrank 0.4.2 库。 ## 4 结果 ### 4.1 HumorRank leaderboard 与模型分层 表 1 与图 1 给出 BT 得分与 95% 置信区间。HumorRank 清晰划分三层: - 前沿层 >1100:GPT-5(1278.4)、Kimi K2(1197.1) - 竞争中层 970–1100:Claude 3.5、HumorGen-7B(1092.8)等 - 弱基线 <800 值得注意的是,专用模型 HumorGen-7B(第 4 名)以 7B 参数超越 120B 的 GPT-OSS-120B(第 6 名),表明机制 mastery 比规模更重要。Llama 3.3 70B 裁判将自己排第 8(761.0),有力反驳了“自偏”担忧。 ### 4.2 跨裁判有效性与排序稳定性 用 Qwen 2.5 72B 重跑相同 10 800 场,BT 排序与主榜 Kendall τ=0.889(p<0.01),头尾模型完全不变,中层轻微波动,传递性得分 1.0,验证 BT 建模适用性。 ### 4.3 人工评估 盲评 60 对,n=2 时 Krippendorff α=0.432,n=3 降至 0.397,证实幽默主观性。详情见附录 H。 ### 4.4 基于理论的特征可解释性 HumorRank 采用 GTVH 分层心理测量模型(表 2),将 1 万条胜场自动标注为幽默机制、表达特征与失败模式: - 前沿通才(如 GPT-5):靠极致简洁(Conciseness 占胜场 30%)+ 标准不一致,失败主因陈词滥调。 - 荒诞专家(如 HumorGen-7B):以深度结构取胜,Absurdity 25.8%、Sarcasm 9.2% 全场最高,靠 Escalation 而非简短。 - 弱基线(如 Llama 70B):表面文字游戏占比 29.5%,45% 失败标签为 Weak Punchline,缺乏结构投入。 图 2 展示各模型胜出特征分布;图 3 显示失败模式。HumorGen-7B 的 Overexplained(25.2%)与 Buried Punchline(20.4%)显著高于他模,表明其深层策略偶尔过火。 (附录 F 提供 Qwen 裁判对应图表,结果一致。)
相似文章
lmfaoooo在SemEval-2026任务1:幽默即受众——约束幽默生成中的偏好建模
本文介绍了一个面向约束幽默生成的系统,该系统采用“先生成大量候选,再择优选择”的策略,并使用从人类比较中学习到的偏好模型。在SemEval-2026任务1中,该系统在英语和中文子任务中排名第一,在西班牙语子任务中排名第二。
RankJudge:一个多轮LLM-as-a-Judge合成基准生成器
RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。
通过幽默调查大模型对身份群体的反事实不公
学术研究揭示大模型存在系统性反事实不公:特权者讲的笑话被拒绝率高出67%,且被判定为更恶意,而内容完全相同的笑话若出自边缘群体则待遇相反。
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
大型语言模型中的交互推理评估:基于可执行游戏的分层基准
本文介绍了一个用于推理评估的多轮交互框架,其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准,展示了区分能力并揭示了推理差异。