标签
一位开发者分享了微调小型开放模型时令人惊讶的经验教训,包括基础模型往往已经在预期改进点上达到极限,真正的弱点在于行为(屈服),而微调需要仔细的衡量和平衡。
文章介绍了‘知识代理’,这是一种通过混合检索系统将相关知识注入AI代理的方法论,使得较小的模型在金融、政策、医疗等专业领域超越大型前沿模型。
一篇分析文章,探讨为何 Gemma 4 尽管具备 QAT 与视觉支持等优势,却相比 Mistral 缺乏社区微调,以及社区惯性是否会最终发生转变。
Harvey与Applied Compute合作训练了一个法律智能体,对智能体堆栈进行了优化,并使用来自其法律智能体基准(LAB)的奖励信号对GLM-5.1模型进行了后训练。
本文详细介绍了 LoRA 及其变体(QLoRA、VeRA、DoRA)的原理,解释了如何通过低秩分解减少可训练参数,实现高效微调大型模型。
据报道,名为NEX-N2-mini的Qwen3.5-MoE微调版本修复了Qwen 3.5和3.6模型中出现的过度思考问题。
一份全面的免费指南,从第一性原理解释LLM,涵盖令牌、Transformer、注意力机制、微调和本地部署。
一位开发者使用Unsloth框架对小型Qwen 3 0.6B模型进行微调,用于对家庭问题进行分类,仅用850个训练样本便取得了良好效果。
Empero发布了Qwythos-9B-Claude-Mythos-5,这是一个基于Fable-5和Mythos-5会话日志的合成思维链数据,使用1M上下文微调的全参数推理模型。
Gemma 4 12B 的一个新微调版本,基于 Fable 5 的推理进行训练,在智能体编码基准测试中实现了显著提升(从15%到55%),并且可以使用 llama.cpp 的自定义分支在 8GB VRAM GPU 上本地运行。
本文系统性地实证研究了针对《古兰经》自动语音识别(ASR)的预训练Transformer模型(Wav2Vec2.0、HuBERT、XLS-R)微调,在EveryAyah子集上实现了0.08的词错误率(WER),并将训练时间从140小时减少到40小时,其中Wav2Vec2-XLSR-53提供了最佳表示。
SupraLabs 发布了 supra-title-FFT-preview,一个完全微调的0.4B参数模型,用于聊天标题生成,在115K样本上训练——比之前的数据集大了近10倍。
Unsloth 使得在Kaggle上免费微调31B参数的多模态模型成为可能,采用4位量化,本地运行仅需22-24GB VRAM。
本文表明,在需要回溯搜索的任务上,使用思维链演示训练模型会失败,说明搜索过程无法被忠实模仿。作者发现,即使模型在子组件上表现良好,它们也无法在密码算术任务中推进从左到右的推导。
本文提出层级语言模型(TLMs),允许单套开源权重模型参数通过密钥控制支持多种能力级别。该方法能在保持公共模型行为并抵御提取的同时,选择性暴露私有能力。
OpenAI报告称,其模型通过对抗性提示和微调表现出对有害行为的更强抵抗力,表明在压力下对齐持久性有所提高。
该帖子分享了关于微调最佳实践的系统性实验结果,一次改变一个SFT变量,涵盖密集模型和MoE模型(参数规模达235B),在四个真实客户数据集上使用自定义评估来消除混淆因素。
Mia-AiLab发布了Gemmable 4 12B,这是Google Gemma 4 12B模型的微调版本,使用了Fable-5风格推理和助手轨迹,提供GGUF和MLX格式用于本地推理。
一位社区成员提议为本地大语言模型创建一个众包编程数据集,以实现协作模型训练和微调,并回应了关于未来开源权重模型可用性的担忧。
PragReST 是一个自监督框架,通过生成反事实推理轨迹并利用监督微调和强化学习训练模型,提升大语言模型的语用推理能力,在语用基准测试上取得了显著提升,且无需人工标注数据。