llm-fine-tuning

标签

Cards List
#llm-fine-tuning

MedAction:迈向主动式多轮临床诊断大语言模型

arXiv cs.CL · 2天前 缓存

本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。

0 人收藏 0 人点赞
#llm-fine-tuning

超越 LoRA 与全参数微调:基于梯度引导优化器路由的大语言模型适配

arXiv cs.CL · 2天前 缓存

本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。

0 人收藏 0 人点赞
#llm-fine-tuning

超越因子聚合:面向联邦 LoRA 的规范感知低秩服务器表示

arXiv cs.LG · 2天前 缓存

本文介绍了 GLoRA,这是一种面向联邦 LoRA 的规范感知服务器表示,旨在通过估计共识更新子空间来解决因子聚合中的语义不匹配问题。实验表明,在异构客户端场景下,GLoRA 在性能和效率方面均优于基线方法。

0 人收藏 0 人点赞
#llm-fine-tuning

AdaPreLoRA:Adafactor 预条件低秩适应

Hugging Face Daily Papers · 4天前 缓存

AdaPreLoRA 是一种新颖的 LoRA 优化器,它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新,同时保持低内存占用,在各种大语言模型(LLM)和任务中表现出具有竞争力的性能。

0 人收藏 0 人点赞
#llm-fine-tuning

Queryable LoRA: 基于指令正则化的共享低秩更新原子路由

Hugging Face Daily Papers · 5天前 缓存

介绍了一种数据自适应的高效微调方法——Queryable LoRA,它利用共享的低秩更新原子记忆,结合基于注意力的路由和指令正则化,实现动态、上下文敏感的参数更新,同时保持可扩展性。

0 人收藏 0 人点赞
#llm-fine-tuning

Q-RAG:通过基于价值的 Embedder 训练实现长上下文多步检索

Hugging Face Daily Papers · 2026-05-04 缓存

Q-RAG 引入了一种基于强化学习的 Embedder 模型微调方法,以实现高效的多步检索,并在长达 10M token 的长上下文基准测试中取得了最先进的结果。该方法为微调小型 LLM 以处理复杂的多步搜索任务提供了一种资源高效的替代方案。

0 人收藏 0 人点赞
#llm-fine-tuning

基于对比 LLM 微调对齐对话附和信号与语境表征

arXiv cs.CL · 2026-04-21 缓存

KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。

0 人收藏 0 人点赞
#llm-fine-tuning

STRIDE-ED: 一个策略驱动的多步推理框架用于同情心对话系统

arXiv cs.CL · 2026-04-20 缓存

STRIDE-ED 是一个为同情心对话系统设计的策略驱动推理框架,它结合了结构化的多阶段推理、数据精化管道和两阶段训练(有监督微调 + 多目标强化学习)来改进情感理解和回复生成。该框架在开源大语言模型上的自动评指标和人工评估上都展示了一致的改进。

0 人收藏 0 人点赞
#llm-fine-tuning

LlamaFactory:100+语言模型的统一高效微调框架

Papers with Code Trending · 2024-03-20 缓存

LlamaFactory 是一个统一框架,通过基于 Web 的界面实现了100多个大型语言模型的高效微调,无需编写代码。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈