标签
本文介绍了SemEval-2026任务8生成子任务的获胜系统。该系统采用由七个大语言模型组成的异构集成,结合双重提示策略,并使用GPT-4o-mini作为裁判来挑选最佳响应。该系统以0.7827的条件调和平均数获得第一名,优于所有基线模型,证明了模型多样性的价值。
本文介绍了Re3Align数据集、REspGen框架和REspEval评估套件,用于同行评审中的作者在环响应生成,整合了作者专业知识和意图信号。该工作填补了NLP在科学反驳文章表述中的空白,提供了全面的数据集、可控的生成框架和多维度评估指标。