标签
本文提出一个模块化流水线,使用领域特定知识图谱生成多跳问答对,并微调一个面向旅游领域的推理大语言模型 (Qwen3-4B),实现了82.4%的精确匹配准确率,显著优于基线模型。
本文介绍了一项实证研究和基准测试,用于评估工具增强型LLM代理在实际能源分析任务上的表现,包含243个由专家策划的问题,涵盖市场数据检索、知识解读和定量建模。
提出DV-DPO方法,仅用约3美元的API调用和零人工标注,即可在领域特定任务上微调Qwen2.5-7B,通过对抗性交叉检验达到Claude Haiku综合性能的96%。
本文介绍了ChristBERT,一个基于RoBERTa的面向德国临床NLP的领域特定语言模型家族,并在医学命名实体识别和文本分类任务上评估了三种领域适应策略(继续预训练、从头预训练和词汇适应),取得了最先进的结果。
提出KOFF框架,利用结构化剪枝和LoRA适配器将预训练大语言模型分解为稀疏共享骨干网络与领域特定外部记忆,实现12%稀疏度且无明显性能损失。
本文介绍了MechVQA,一个包含3.3k高密度机械工程图纸和21k问答对的数据集,以及MechVL模型,该模型在MechVQA总分上优于现有基线7.57个百分点,推动了多模态LLM对机械图纸的理解。
DOMINO 是一个新颖的框架,它从参考示例中学习最小充分的领域表示,为LLMs合成领域特定数据,从而在不要求显式领域描述的情况下提升代码基准性能。
本文介绍了MultiSeismo,一个大规模多模态地震数据集,包含超过16,000个事件,整合了波形、烈度图和元数据,以及MISCE指令集和SeisModal——一个经过微调的多模态模型,用于跨模态地震理解。
FAB-Bench是一个用于评估半导体制造中检索增强生成(RAG)系统的基准框架,包含六项诊断指标和跨上下文窗口的分析。它提供了200个精选的问答对,并揭示了上下文缩放行为和注意力稀释问题。
Palette提出了一种模块化框架,用于在授权的专业领域中选择性地放松大语言模型的安全拒绝行为,利用多目标搜索和轻量级适配来避免昂贵的重新训练。
自主代理搜索模型是专门为编排搜索任务而训练的LLM,相比GPT-5等通用模型,它们提供更小、更快且领域特定的替代方案。这些模型通过让智能模型管理整个检索过程,解构了传统的单体搜索栈。
BAGEL是一个用于评估大语言模型中与动物相关知识的新基准,从多种科学资源构建,涵盖分类学、形态学、栖息地、行为和物种相互作用等方面,通过闭卷问答对形式呈现。该基准可以进行跨分类群和知识类别的细粒度分析,为生物多样性应用中的模型优势和失败模式提供洞见。