标签
一项分析2010年至2026年间14.2万篇NLP论文的研究发现,资深和新兴的NLP作者越来越多地将论文发表在NeurIPS和ICLR等通用机器学习会议上,而非ACL等核心NLP会议,且ML会议具有显著的引用优势。
BamiBERT 是一种新的基于BERT的越南语预训练语言模型,它解决了PhoBERT的局限性,支持更长的上下文,无需分词即可运行,并在多个越南语基准上取得了最先进的结果。
介绍RusFinChain——首个面向金融领域可验证思维链推理的俄语符号基准测试,涵盖17个领域,包含5,280个参数化示例,并增强了评估指标,包括模糊数值对齐。
Svarna 是一个面向现代希腊语的开源网络语料库工作台,整合了多个数据库,包含超过 5.07 亿词,并提供多种语言分析工具,采用 MIT 许可证发布。
本文比较了从新闻文章中收集灾害文本数据的自顶向下和自底向上方法,并以德国关于山体滑坡的新闻作为案例研究。
本文提出了一种使用自然语义元语言(NSM)的情感分析界面,为情感分类生成忠实且可解释的说明,以轻微的准确度换取可验证性。
介绍了针对土耳其语和阿拉伯语的全面仇恨言论数据集,并开发了基于BERT的最先进模型,用于仇恨言论分析,包括分类、强度预测、目标识别和跨度检测。
LabGuard 引入了一个框架,将自然语言实验室安全规则转化为具身代理的可执行运行时监控器,在不影响任务成功率的情况下,将不安全事件从 39.5% 降至 23.8%。
本文提出了一个用于自然语言到Lean语句忠实形式化的基准测试和评估协议,揭示了编译通过与共识忠实性之间29个百分点的差距,并分解了专家起草、上下文搜索和细化反馈的效果。
本研究以自然语言处理领域为例,探讨团队机构构成(学术、产业或混合)如何影响论文新颖性,利用方法、数据集等细粒度知识实体来测量新颖性。
本文利用社交媒体文本研究语言距离作为不同年龄群体情绪调节的指标,发现语言距离随年龄增长而增加,这与老年人幸福感提升的研究结果一致。
本文介绍了一个包含噪声文本(ASR、拼写错误)的孟加拉语事件检测基准,并评估了仅编码器和仅解码器的大语言模型,发现解码器模型对噪声的鲁棒性更强。
本文介绍了一种混合框架,用于歌词的句子级情感标注,通过预测不对齐来优化人与LLM的协作,解决了歌词情感识别中的主观性和可扩展性挑战。
本文介绍了BERTomelo,一种基于ModernBERT架构预训练的下一代单语编码器,专为葡萄牙语优化。在STS和NER等下游任务中,其性能优于以往的葡萄牙语模型和多语言模型。
介绍了SEATauBench,这是首个面向东南亚语言的智能体评估框架,将τ²-Bench适配到中文、越南语、泰语、印尼语和菲律宾语,并揭示了从英语迁移到本地化设置时存在显著的能力差距。
提出 OPI,一种面向多跳知识图谱问答的本体引导框架,利用以关系为中心的本体图进行双向检索和迭代精炼,在多个基准上取得了最先进的结果。
本文介绍了互补动作建模(CAM)任务,该任务通过修改动作短语并保持上下文不变,来识别或生成汽车维修指令的程序性对应物。作者使用一个德国汽车数据集,通过候选匹配和受控序列到序列生成来研究这些互补指令的建模。
提出了一种基于术语的框架,用于从异质文本源中归纳层级分类体系,实现跨源对齐和可解释的层级结构。在多源基准上的实验表明,与基于文本和摘要的基线相比,该框架在一致性和质量上有所提升。
本文对多模态事件抽取中的评估陷阱进行了系统分析,识别出数据预处理不一致、任务假设不一致以及评估设置过于宽松等问题,这些问题可能导致性能被高估。
本文提出了一种谬误分类框架,利用LLM从谬误示例及其解释中提取模式,在零样本基线上取得了统计显著的改进,并展示了跨数据集的泛化能力。