RaguTeam参加SemEval-2026任务8：在法官协调的大语言模型集成中使用Meno及其伙伴进行忠实的多轮响应生成

Hugging Face Daily Papers 2026/05/06 00:00 论文

ensemble llm semeval multi-turn response-generation faithfulness judge-selection

摘要

本文介绍了SemEval-2026任务8生成子任务的获胜系统。该系统采用由七个大语言模型组成的异构集成，结合双重提示策略，并使用GPT-4o-mini作为裁判来挑选最佳响应。该系统以0.7827的条件调和平均数获得第一名，优于所有基线模型，证明了模型多样性的价值。

我们介绍了我们在SemEval-2026任务8：MTRAGEval的任务B（附带参考段落的生成）中获胜的系统。我们的方法是由七个大语言模型组成的异构集成，包含两种提示变体，其中GPT-4o-mini裁判负责为每个实例挑选最佳候选响应。我们在26支队伍中排名第一，取得了0.7827的条件调和平均数，超越了最强的基线模型（gpt-oss-120b，得分为0.6390）。消融实验表明，模型家族、规模以及提示策略的多样性至关重要，集成模型始终优于任何单一模型。我们还引入了Meno-Lite-0.1，这是一个7B参数量的领域自适应模型，具有出色的性价比，并对MTRAGEval进行了分析，指出了标注的局限性以及改进的方向。我们的代码已公开可用：https://github.com/RaguTeam/ragu_mtrag_semeval

查看原文

查看缓存全文

缓存时间: 2026/05/08 06:52

论文页面 - RaguTeam 在 SemEval-2026 任务 8：Meno 及其伙伴在法官编排的大语言模型集成中实现忠实的多轮响应生成

来源：https://huggingface.co/papers/2605.04523

摘要

通过裁判选择策略，由七个大型语言模型组成的异构集成系统凭借双提示策略在 SemEval-2026 MTRAGEval 任务中取得了顶尖性能，并证明了模型多样性的重要性。

我们展示了在 SemEval-2026 任务 8：MTRAGEval 中的获胜系统（任务 B：基于参考片段的生成）。我们的方法是一种由七个 LLM 组成的异构集成（https://huggingface.co/papers?q=heterogeneous%20ensemble），并采用两种提示变体（https://huggingface.co/papers?q=prompting%20variants），其中 GPT-4o-mini（https://huggingface.co/papers?q=GPT-4o-mini）作为裁判，为每个实例选择最佳候选答案。我们在 26 支队伍中排名第一，实现了 0.7827 的条件调和均值（https://huggingface.co/papers?q=conditioned%20harmonic%20mean），并优于最强的基线模型（gpt-oss-120b，0.6390）。消融实验表明，模型家族、规模以及提示策略的多样性至关重要，集成系统始终优于任何单一模型。我们还引入了 Meno-Lite-0.1，这是一个 7B 的领域适应模型（https://huggingface.co/papers?q=domain-adapted%20model），具有出色的成本-性能权衡（https://huggingface.co/papers?q=cost–performance%20trade-off），并对 MTRAGEval 进行了分析，强调了标注的局限性以及改进的方向。我们的代码已公开：https://github.com/RaguTeam/ragu_mtrag_semeval

查看 arXiv 页面 (https://arxiv.org/abs/2605.04523) 查看 PDF (https://arxiv.org/pdf/2605.04523) GitHub0 (https://github.com/RaguTeam/ragu_mtrag_semeval) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.04523)

引用本论文的模型 1

bond005/meno-lite-0.1 文本生成 • 8B • 更新于约 3 小时前 • 168 • 5 (https://huggingface.co/bond005/meno-lite-0.1)

引用本论文的数据集 0

没有链接到本论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.04523 以从此页面链接。

引用本论文的 Space 0

没有链接到本论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.04523 以从此页面链接。

RaguTeam参加SemEval-2026任务8：在法官协调的大语言模型集成中使用Meno及其伙伴进行忠实的多轮响应生成

论文页面 - RaguTeam 在 SemEval-2026 任务 8：Meno 及其伙伴在法官编排的大语言模型集成中实现忠实的多轮响应生成

摘要

引用本论文的模型 1

bond005/meno-lite-0.1 文本生成 • 8B • 更新于约 3 小时前 • 168 • 5 (https://huggingface.co/bond005/meno-lite-0.1)

引用本论文的数据集 0

引用本论文的 Space 0

包含本论文的集合 1

相似文章

RankJudge：一个多轮LLM-as-a-Judge合成基准生成器

互补智能体混合方法构建稳健的大语言模型集成

lmfaoooo在SemEval-2026任务1：幽默即受众——约束幽默生成中的偏好建模

通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差

MM-JudgeBias：评测 MLLM-as-a-Judge 组合偏差的基准

提交意见反馈