RaguTeam参加SemEval-2026任务8:在法官协调的大语言模型集成中使用Meno及其伙伴进行忠实的多轮响应生成
摘要
本文介绍了SemEval-2026任务8生成子任务的获胜系统。该系统采用由七个大语言模型组成的异构集成,结合双重提示策略,并使用GPT-4o-mini作为裁判来挑选最佳响应。该系统以0.7827的条件调和平均数获得第一名,优于所有基线模型,证明了模型多样性的价值。
查看缓存全文
缓存时间: 2026/05/08 06:52
论文页面 - RaguTeam 在 SemEval-2026 任务 8:Meno 及其伙伴在法官编排的大语言模型集成中实现忠实的多轮响应生成
来源:https://huggingface.co/papers/2605.04523
摘要
通过裁判选择策略,由七个大型语言模型组成的异构集成系统凭借双提示策略在 SemEval-2026 MTRAGEval 任务中取得了顶尖性能,并证明了模型多样性的重要性。
我们展示了在 SemEval-2026 任务 8:MTRAGEval 中的获胜系统(任务 B:基于参考片段的生成)。我们的方法是一种由七个 LLM 组成的异构集成(https://huggingface.co/papers?q=heterogeneous%20ensemble),并采用两种提示变体(https://huggingface.co/papers?q=prompting%20variants),其中 GPT-4o-mini(https://huggingface.co/papers?q=GPT-4o-mini)作为裁判,为每个实例选择最佳候选答案。我们在 26 支队伍中排名第一,实现了 0.7827 的条件调和均值(https://huggingface.co/papers?q=conditioned%20harmonic%20mean),并优于最强的基线模型(gpt-oss-120b,0.6390)。消融实验表明,模型家族、规模以及提示策略的多样性至关重要,集成系统始终优于任何单一模型。我们还引入了 Meno-Lite-0.1,这是一个 7B 的领域适应模型(https://huggingface.co/papers?q=domain-adapted%20model),具有出色的成本-性能权衡(https://huggingface.co/papers?q=cost–performance%20trade-off),并对 MTRAGEval 进行了分析,强调了标注的局限性以及改进的方向。我们的代码已公开:https://github.com/RaguTeam/ragu_mtrag_semeval
查看 arXiv 页面 (https://arxiv.org/abs/2605.04523) 查看 PDF (https://arxiv.org/pdf/2605.04523) GitHub0 (https://github.com/RaguTeam/ragu_mtrag_semeval) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.04523)
引用本论文的模型 1
bond005/meno-lite-0.1 文本生成 • 8B • 更新于约 3 小时前 • 168 • 5 (https://huggingface.co/bond005/meno-lite-0.1)
引用本论文的数据集 0
没有链接到本论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.04523 以从此页面链接。
引用本论文的 Space 0
没有链接到本论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2605.04523 以从此页面链接。
包含本论文的集合 1
相似文章
RankJudge:一个多轮LLM-as-a-Judge合成基准生成器
RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。
互补智能体混合方法构建稳健的大语言模型集成
提出一个框架,用于在集成系统中选择互补的大语言模型作为提案者,将提案者选择重新表述为一个组合问题,并探索贪心算法以实现性能-成本的高效权衡。
lmfaoooo在SemEval-2026任务1:幽默即受众——约束幽默生成中的偏好建模
本文介绍了一个面向约束幽默生成的系统,该系统采用“先生成大量候选,再择优选择”的策略,并使用从人类比较中学习到的偏好模型。在SemEval-2026任务1中,该系统在英语和中文子任务中排名第一,在西班牙语子任务中排名第二。
通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差
本文识别出多模态LLM评判者存在的感知判断偏差,即它们倾向于过度奖励流畅但视觉错误的回答,并提出了数据集PPJD以及利用GRPO与批量排序奖励训练的模型Perception-Judge,以缓解此偏差并提升基于感知的评估质量。
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。