标签
本文介绍了PEC-Home,一个用于解释智能家居中递进省略命令的模拟家居数据集,并发现当前基于LLM的助手由于指代歧义和意图歧义而难以处理此类命令。
本文介绍了一个包含1,200份临床文档和9,184条不确定性标注的基准,用于评估LLMs是否能在临床文本中保持诊断不确定性,结果发现LLMs常常无法保留原始不确定性线索,且在细微区别上表现不佳。
本文研究了从大语言模型中提取机器翻译输出置信度的口头化方法,并将其与内部token概率进行了比较。研究发现,尽管两种方法在错误检测和校准方面表现相似,但内部置信度与口头化置信度之间几乎没有相关性。
对Web规模LLM预训练数据中叙事特征的细粒度研究,引入了NarraBERT和NarraDolma来测量叙事模式及其在不同来源中的分布。
Sumi 是一个 7B 参数的均匀扩散语言模型,在 1.5T token 上从头预训练,在知识和推理任务上取得了有竞争力的性能,同时完全开源,发布了模型权重和训练方案。
本文介绍了用于分类真实B2B对话的Call Playbook数据集,并提出将示例提炼为紧凑、可解释的任务指令的方法,相比传统上下文学习实现了99%的Token压缩和高达7%的AUC提升。
本研究探究了经过指令微调的大语言模型(Llama-3.1-8B、Qwen2.5-7B、Mistral-7B、Phi-3-mini)能否可靠地分类失语症语篇转录中的正确信息单元。少样本提示使三个模型获得了具有竞争力的F1分数(0.776–0.817),但性能因严重程度而异,且与人类标注的一致性仍不足以实现完全自主使用。
提出CoCoGEC,一种反事实生成框架,通过改变GEC训练数据中与错误无关的上下文来提升模型鲁棒性,在扰动基准上取得了显著的F0.5提升。
本文介绍了从生物医学文献中提取治疗药物-疾病关系适用条件的任务,创建了一个手动标注的三元组数据集,并提出了一种增强LoRA的方法,该方法优于现有基线方法。
本文提出了一种用于分析数字危机话语中应对风格的计算模型,并具体应用于2023年土耳其地震。
本文提出了一种连续学习方法,将非流利标记整合到预训练的ASR模型中,解决了灾难性遗忘问题,并提升了对非流利语音的识别能力。
本文提出利用语言学奥林匹克竞赛数据构建新的语言学研究语料库,旨在推动该领域发展。
Google发布Gemini-SQL2,这是一个由Gemini 3.1 Pro驱动的文本转SQL模型,在BIRD基准测试中取得了最先进的结果,能够将自然语言转换为准确的SQL查询。
本文提出了一种面向低资源阿尔及利亚方言社交媒体内容的端到端混合谣言检测框架,通过结合Transformer嵌入和经典分类器,达到了0.84的F1分数。
HyPE 提出了一种基于超图的角色编码器,通过类别感知超边和持久边嵌入对角色属性间的高阶关系进行建模,在 PersonaChat 数据集上,相较于多个主干模型的平面池化基线,取得了持续的改进。
本文介绍了NaturalFlow,一种流畅性感知的优化框架,它通过利用模型内部信号减少同时语音翻译中的干扰性停顿,在低延迟和自然语音流畅之间取得平衡。
本文提出SafeLLM,一种基于提取的方法,用于从安全关键文档中检索信息,表明行号选择在减少幻觉的同时保持高召回率方面优于基于重写的RAG方法。
EDEN是一个来自意大利急诊科的去标识化临床笔记的大规模语料库,其中一部分注有结构化信息提取的手工标注。其目标是支持意大利语医学应用的LLM开发。
介绍了GraphInfer-Bench,这是一个基准测试,用于评估LLMs是否能够进行图推理——生成关于节点及其邻域的开放式答案,这些答案无法从单个节点或路径中检索到。实验表明,即使是最前沿的LLMs在这些任务上也落后于普通GNNs,揭示了一个能力差距。
本文提出了一种注意力扩展机制,通过使用上下文外信息增强PLM token表示,提升长文档的关键词提取性能,在不需全文档注意力或昂贵LLM推理的情况下,持续优于最先进模型。