标签
本文介绍了一种检索增强的视觉-语言-动作策略,通过使用预训练模型和索引演示,消除了每个任务的微调,实现了高效的跨本体泛化和测试时的任务适应。
一个在550步内对两个指令遵循数据集进行微调的Pythia-6.9B模型,具备了13种语言的能力,相比基础模型有显著提升。
Claude Fable 5在3小时内完成了一个通常需要4个月的fine-tuning项目,包括完整的7阶段pipeline、TUI界面、HTML仪表盘、39个专项技能、8700行代码和235个测试,达到98%完成度,one-shot完成。
AAbAAC是一个手动标注的语料库,包含115篇PubMed摘要,用于自身免疫信息提取,重点关注自身免疫疾病和自身抗体等实体。研究表明,在该语料库上进行微调后,命名实体识别(NER)性能有所提升。
本文揭示了LoRA优化中缩放因子α比学习率更具影响力,并提出了LoRA-α框架,通过将α恢复到其理论原则区间,提升了性能并简化了超参数搜索。
PolyAlign是一个分布感知的对齐框架,它将语言模型对齐到特定上下文的人类回复分布,而不是单一的全局风格,从而提升了双语环境下的自然性和忠实度。
本文对直接偏好优化(DPO)在大型语言模型微调中的应用进行了实证研究,表明DPO简化了训练流程,在实现竞争性性能的同时,也解决了训练不稳定性问题。
使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。
本文提出了MentalMARBERT,一个面向社交媒体文本中阿拉伯语心理健康障碍检测的领域自适应语言模型。该框架采用领域自适应预训练和两阶段微调方法,在新构建的包含50,670条推文的阿拉伯语心理健康数据集上实现了0.877的准确率和0.861的宏F1分数。
FastContext引入了专门的探索模型,将LLM代理中的仓库探索与代码求解分离,将Token消耗降低多达60%,同时提升软件工程基准上的解决率。
ClinHallu是一个基准,通过将推理分解为视觉识别、知识回忆和推理整合阶段,并使用轨迹监督微调来减少错误,从而诊断和缓解医疗多模态大语言模型中的幻觉。
HyVLA-0.5 是一个端到端机器人学习系统,整合了数据收集、模型设计、预训练、微调和强化学习,用于真实世界部署。
这项研究介绍了一种方法,利用可解释性在训练前预测DPO将从偏好数据集中放大或抑制哪些行为,从而实现数据调试以防止不良影响。该技术达到了R²=0.9的预测准确率,并集成到了Goodfire的Silico平台中。
llmfan46 在 Hugging Face 上发布了一组四重未经审查、微调并量化的 Gemma-4 模型,包括 12B、26B-A4B 和 31B 变体,提供 QAT 和 GGUF 格式。
发布基于 Qwen3.5 的微调版本:Nex-N2 Pro 397B 和 Nex-N2 Mini 35B,基准测试表现强劲。
一本230页的书,全面涵盖LLM概念,包括预训练、微调、对齐和提示技术。
本文介绍 SWARR,一种两阶段方案,结合监督微调和强化学习,使滑动窗口注意力模型适应数学推理,表明强化学习能缩小其与自注意力的性能差距,同时保持效率优势。
本文介绍了一种名为ISE的三阶段合成范式,用于生成带有基于执行的多轮操作系统代理轨迹,并证明在生成的ISE-Trace数据集上进行微调能显著提升代理在ClawEval上的性能。
介绍 Compatibility-Aware Dynamic Fine-Tuning (CADFT),这是 Dynamic Fine-Tuning 的扩展,在 LLM 监督微调中控制样本级优化方差,从而提高稳定性和泛化能力。
本文介绍了一个预测电子表格用户操作的基准,通过人工整理和在线评估方法,解决了编辑历史可用性和复杂操作空间方面的挑战。