RaguTeam参加SemEval-2026任务8:在法官协调的大语言模型集成中使用Meno及其伙伴进行忠实的多轮响应生成

Hugging Face Daily Papers 论文

摘要

本文介绍了SemEval-2026任务8生成子任务的获胜系统。该系统采用由七个大语言模型组成的异构集成,结合双重提示策略,并使用GPT-4o-mini作为裁判来挑选最佳响应。该系统以0.7827的条件调和平均数获得第一名,优于所有基线模型,证明了模型多样性的价值。

我们介绍了我们在SemEval-2026任务8:MTRAGEval的任务B(附带参考段落的生成)中获胜的系统。我们的方法是由七个大语言模型组成的异构集成,包含两种提示变体,其中GPT-4o-mini裁判负责为每个实例挑选最佳候选响应。我们在26支队伍中排名第一,取得了0.7827的条件调和平均数,超越了最强的基线模型(gpt-oss-120b,得分为0.6390)。消融实验表明,模型家族、规模以及提示策略的多样性至关重要,集成模型始终优于任何单一模型。我们还引入了Meno-Lite-0.1,这是一个7B参数量的领域自适应模型,具有出色的性价比,并对MTRAGEval进行了分析,指出了标注的局限性以及改进的方向。我们的代码已公开可用:https://github.com/RaguTeam/ragu_mtrag_semeval
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:52

论文页面 - RaguTeam 在 SemEval-2026 任务 8:Meno 及其伙伴在法官编排的大语言模型集成中实现忠实的多轮响应生成

来源:https://huggingface.co/papers/2605.04523

摘要

通过裁判选择策略,由七个大型语言模型组成的异构集成系统凭借双提示策略在 SemEval-2026 MTRAGEval 任务中取得了顶尖性能,并证明了模型多样性的重要性。

我们展示了在 SemEval-2026 任务 8:MTRAGEval 中的获胜系统(任务 B:基于参考片段的生成)。我们的方法是一种由七个 LLM 组成的异构集成(https://huggingface.co/papers?q=heterogeneous%20ensemble),并采用两种提示变体(https://huggingface.co/papers?q=prompting%20variants),其中 GPT-4o-mini(https://huggingface.co/papers?q=GPT-4o-mini)作为裁判,为每个实例选择最佳候选答案。我们在 26 支队伍中排名第一,实现了 0.7827条件调和均值(https://huggingface.co/papers?q=conditioned%20harmonic%20mean),并优于最强的基线模型(gpt-oss-120b,0.6390)。消融实验表明,模型家族、规模以及提示策略的多样性至关重要,集成系统始终优于任何单一模型。我们还引入了 Meno-Lite-0.1,这是一个 7B领域适应模型(https://huggingface.co/papers?q=domain-adapted%20model),具有出色的成本-性能权衡(https://huggingface.co/papers?q=cost–performance%20trade-off),并对 MTRAGEval 进行了分析,强调了标注的局限性以及改进的方向。我们的代码已公开:https://github.com/RaguTeam/ragu_mtrag_semeval

查看 arXiv 页面 (https://arxiv.org/abs/2605.04523) 查看 PDF (https://arxiv.org/pdf/2605.04523) GitHub0 (https://github.com/RaguTeam/ragu_mtrag_semeval) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.04523)

引用本论文的模型 1

bond005/meno-lite-0.1 文本生成 • 8B • 更新于约 3 小时前 • 168 • 5 (https://huggingface.co/bond005/meno-lite-0.1)

引用本论文的数据集 0

没有链接到本论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.04523 以从此页面链接。

引用本论文的 Space 0

没有链接到本论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.04523 以从此页面链接。

包含本论文的集合 1

相似文章