标签
提出 OPI,一种面向多跳知识图谱问答的本体引导框架,利用以关系为中心的本体图进行双向检索和迭代精炼,在多个基准上取得了最先进的结果。
本文介绍了互补动作建模(CAM)任务,该任务通过修改动作短语并保持上下文不变,来识别或生成汽车维修指令的程序性对应物。作者使用一个德国汽车数据集,通过候选匹配和受控序列到序列生成来研究这些互补指令的建模。
提出了一种基于术语的框架,用于从异质文本源中归纳层级分类体系,实现跨源对齐和可解释的层级结构。在多源基准上的实验表明,与基于文本和摘要的基线相比,该框架在一致性和质量上有所提升。
本文对多模态事件抽取中的评估陷阱进行了系统分析,识别出数据预处理不一致、任务假设不一致以及评估设置过于宽松等问题,这些问题可能导致性能被高估。
本文提出了一种谬误分类框架,利用LLM从谬误示例及其解释中提取模式,在零样本基线上取得了统计显著的改进,并展示了跨数据集的泛化能力。
本文提出KIRP,一种零样本推文立场检测框架,通过实体重组集成外部知识并采用反思式思维链推理,在包括新构建的日语推文数据集在内的多个数据集上达到了最先进性能。
本文研究了脑电图信号能否补充眼动追踪信号用于微博的自动关键词提取。使用ZuCo语料库,作者表明认知信号,特别是脑电图信号,在不同模型上均能提升自动关键词提取的性能。
介绍了Tatoxa,一个用于鞑靼语文本去毒化的最先进系统,优于现有的大语言模型。引入了一个新数据集,并表明跨语言迁移的效果比使用原生数据差。
本文提出了SARA框架,该框架利用Jensen-Shannon散度对齐多语言输入的路由分布,以改善稀疏混合专家模型中低资源语言的专家共享。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct上的实验显示在多语言基准上有改进。
本文研究了基于提示学习的方法来自动生成学术论文的亮点,使用了GPT-2、T5和ChatGPT等模型,并表明使用少量样本提示的ChatGPT在无需任务特定训练数据的情况下,其表现可与监督方法相媲美甚至更优。
本文开发了针对药物使用者的自我污名编码手册,并分析了72,115条Reddit帖子,以考察认知、情感和行为污名指标的普遍性、共现性和时间模式,发现自我污名表现为一种整合现象,行为指标通常先于核心指标出现。
本文提出了一种资源轻量级算法,通过消歧后从英语WordNet转移词性标签,自动为Al-Mawrid阿英双语词典中的词义分配词性标签,以极低成本实现了高准确率。
T2D-Bench是一个基于多层临床-生活方式知识图谱的基准测试,用于评估大语言模型在2型糖尿病方面的输出。结果显示,当前大语言模型约有三分之一的情况未能通过证据路径检查。
本文从学术论文全文构建大规模算法共现网络,研究自然语言处理中算法的集体影响力,发现经典、高性能及交叉领域的算法在网络中占据核心位置。
本文介绍了RASC+,一种用于临床值集编制的检索约束型大语言模型裁决方法,其通过基于Qwen3的检索和盲目裁决,提升了候选集召回率和选择精度,显著优于RASC基线中的直接生成方法。
本文提出一个可扩展的框架,利用LLM对定性反馈中的产品需求度进行隐式情感分析,实现了高达0.97的皮尔逊相关系数和94%的准确率,并提供解释,其中GPT-4o-mini在成本降低94%的情况下实现了相似的性能。
一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。
本文探讨了为何AI系统在理解人类对话中的不确定性和歧义方面存在困难,并强调了自然语言理解领域持续面临的挑战。
2026年1月6日发布的《Speech and Language Processing》第3版草案由Dan Jurafsky和James H. Martin撰写,采用了修订后的结构,重点关注大型语言模型并更新了章节。
本文介绍了近似结构化扩散(Approximate Structured Diffusion),一种将条件随机场(CRF)与离散扩散相结合用于序列标注的方法。它使用以噪声标签序列为条件的CRF和近似平均场推理,在词性标注上实现了16.5%的错误率降低。