标签
CUNY在CLPsych 2026共享任务中的提交采用了一种流水线方法,结合了上下文学习与开放权重大型语言模型、监督分类器和检索增强生成,用于从Reddit时间线中分类和总结心理健康变化,在多个子任务中取得了最高排名。
本文介绍了 Counter Turing Test 共享任务在AI生成文本检测方面的发现,顶级系统在二分类任务中达到了完美表现,但在模型归因方面性能显著较低,突显了区分不同大语言模型输出的难度。
佛罗里达大学Gators团队提交至AmericasNLP 2026共享任务,该任务涉及面向土著语言的文化图像描述。我们采用双阶段流水线:使用Qwen2.5-VL生成西班牙语中间描述,然后通过检索增强的多示例提示,利用Gemini 2.5 Flash生成目标语言描述。与基线相比,取得了显著提升。
本文提出了一种基于LLM的多语言共指解析的两阶段自适应方法,在CRAC 2026的LLM赛道中以74.32的CoNLL F1分数获得第一名。该方法使用多语言基适配器后接数据集特定适配器对Gemma-3-27b进行微调。
本文介绍了两种词汇难度预测模型:一种是通过软目标损失微调的黑盒大语言模型,实现了高准确度;另一种是可解释模型,能提供对难度因素的深入分析。这些模型参与了BEA 2026共享任务,并取得了强相关性。
本文详细介绍了 RETUYT-INCO 团队参与 BEA 2026 共享任务 2 的情况,提出了一种用于德语简答题基于评分标准(rubric-based)评分的元提示词(meta-prompting)方法。
本文介绍了一个用于 EEUCA 2026 游戏聊天毒性检测共享任务的系统,该系统通过结合合成数据增强微调 Llama 3.1 8B 模型,获得了第四名。文章重点阐述了一种“验证陷阱”现象:由于数据分布偏移,较高的验证分数与测试集表现并不相关。