标签
Mia-AiLab 发布了 Qwable-3.6-27b,这是一个基于清理后的推理和指令数据集对 Qwen3.6-27B 进行全参数微调的检查点,针对编程、技术辅助和结构化回复进行了优化。
这篇帖子演示了如何通过单个提示词免费微调模型,利用了新的Google Colab CLI以及Hugging Face的TRL和trackio工具,所有这些都由AI代理编排。
本文提出了对LoRA的稀疏诱导适配方法,包括廉价LoRA(cLA)和链式循环变体(c³LA),并提供了理论泛化界以及实证评估,结果显示在保持竞争性性能的同时,训练时间最多减少10%,峰值GPU内存节省最多15%。
BayLing-Duplex是一种原生全双工语音语言模型,使单一自回归大语言模型无需外部VAD模块即可管理轮流发言与打断,实现了高成功率,并相比先前模型提升了回复质量。
本文提出了一种合成数据生成方法,用于微调小型LLM,将自然语言转换为属性图的Cypher查询,在实现本地部署和数据主权的同时,达到了与大型专有模型相竞争的性能。
ProCUA-SFT 是一个大规模合成数据集,包含 310 万个步骤级别的 SFT 样本,用于训练计算机使用代理。该数据集通过使用单一 VLM(Kimi-K2.5)的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%,比基础模型提高了 18.7 个百分点。
本文提出分层优势加权行为克隆(HABC),用于利用具有稀疏二进制回合结果的在线强化学习微调视觉-语言-动作(VLA)策略。HABC通过自适应评价器头和干预感知的信用分配将可行性和效率目标分离,显著提高了接触密集型双手操作任务的成功率。
MLX-LoRA-Studio 是一款原生的macOS应用,用于在Apple Silicon上微调LLM,提供用户友好的界面,支持多种训练算法,包括SFT、DPO和QAT。它完全开源,允许本地私有微调,无需依赖云端。
巴西一名市政员工声称发现了一种能让LLM微调速度提升1000倍的方法,不过分析表明,最终得到的模型Rio 3.5本质上是现有开源模型Nex N2 Pro和Qwen 3.5的混合体。
发布 Qwopus3.6-27B-v2-MTP,这是一个基于 Qwen3.6-27B 微调的多 token 预测推理模型,针对编码、DevOps 和数学任务进行了优化,并提升了生成速度。
@TheAhmadOsman 的一条推文强调本地AI是未来,并推荐学习诸如运行开源模型、进行评估以及通过微调定制模型等技能。
本文介绍了一种检索增强的视觉-语言-动作策略,通过使用预训练模型和索引演示,消除了每个任务的微调,实现了高效的跨本体泛化和测试时的任务适应。
一个在550步内对两个指令遵循数据集进行微调的Pythia-6.9B模型,具备了13种语言的能力,相比基础模型有显著提升。
Claude Fable 5在3小时内完成了一个通常需要4个月的fine-tuning项目,包括完整的7阶段pipeline、TUI界面、HTML仪表盘、39个专项技能、8700行代码和235个测试,达到98%完成度,one-shot完成。
AAbAAC是一个手动标注的语料库,包含115篇PubMed摘要,用于自身免疫信息提取,重点关注自身免疫疾病和自身抗体等实体。研究表明,在该语料库上进行微调后,命名实体识别(NER)性能有所提升。
本文揭示了LoRA优化中缩放因子α比学习率更具影响力,并提出了LoRA-α框架,通过将α恢复到其理论原则区间,提升了性能并简化了超参数搜索。
PolyAlign是一个分布感知的对齐框架,它将语言模型对齐到特定上下文的人类回复分布,而不是单一的全局风格,从而提升了双语环境下的自然性和忠实度。
本文对直接偏好优化(DPO)在大型语言模型微调中的应用进行了实证研究,表明DPO简化了训练流程,在实现竞争性性能的同时,也解决了训练不稳定性问题。
使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。