fine-tuning

标签

Cards List
#fine-tuning

@no_stp_on_snek:微调小型开放模型时真正让我惊讶的事情。注意,我在这方面还算新手,所以有些内容可能看起来很显而易见……

X AI KOLs Timeline · 7小时前 缓存

一位开发者分享了微调小型开放模型时令人惊讶的经验教训,包括基础模型往往已经在预期改进点上达到极限,真正的弱点在于行为(屈服),而微调需要仔细的衡量和平衡。

0 人收藏 0 人点赞
#fine-tuning

知识代理:通过更好的结构超越前沿模型(18分钟阅读)

TLDR AI · 21小时前 缓存

文章介绍了‘知识代理’,这是一种通过混合检索系统将相关知识注入AI代理的方法论,使得较小的模型在金融、政策、医疗等专业领域超越大型前沿模型。

0 人收藏 0 人点赞
#fine-tuning

Gemma 4 有一天会成为下一个 Mistral(或 Qwen3.6)吗?关于微调不足的问题。

Reddit r/LocalLLaMA · 23小时前

一篇分析文章,探讨为何 Gemma 4 尽管具备 QAT 与视觉支持等优势,却相比 Mistral 缺乏社区微调,以及社区惯性是否会最终发生转变。

0 人收藏 0 人点赞
#fine-tuning

@gabepereyra: Harvey与@appliedcompute合作训练法律智能体。我们优化了智能体堆栈的每个部分,包括……

X AI KOLs Following · 23小时前 缓存

Harvey与Applied Compute合作训练了一个法律智能体,对智能体堆栈进行了优化,并使用来自其法律智能体基准(LAB)的奖励信号对GLM-5.1模型进行了后训练。

0 人收藏 0 人点赞
#fine-tuning

@0xSero: Highly recommended educational content. LoRA is one of the coolest things to dabble in, lets anyone fine tune models re…

X AI KOLs Timeline · 昨天 缓存

本文详细介绍了 LoRA 及其变体(QLoRA、VeRA、DoRA)的原理,解释了如何通过低秩分解减少可训练参数,实现高效微调大型模型。

0 人收藏 0 人点赞
#fine-tuning

NEX-N2-mini:“没有帕累托前沿。我就是帕累托。”这个Qwen3.5-MoE微调版本在我的测试中显然修复了3.5和3.6的过度思考问题。

Reddit r/LocalLLaMA · 昨天

据报道,名为NEX-N2-mini的Qwen3.5-MoE微调版本修复了Qwen 3.5和3.6模型中出现的过度思考问题。

0 人收藏 0 人点赞
#fine-tuning

@TheAhmadOsman: 不可思议的资源 从第一性原理理解LLM的最完整指南现已可在网上阅读…

X AI KOLs Timeline · 昨天 缓存

一份全面的免费指南,从第一性原理解释LLM,涵盖令牌、Transformer、注意力机制、微调和本地部署。

0 人收藏 0 人点赞
#fine-tuning

对本地LLM如Qwen 3:0.6B进行微调以对问题分类,效果良好

Hacker News Top · 昨天 缓存

一位开发者使用Unsloth框架对小型Qwen 3 0.6B模型进行微调,用于对家庭问题进行分类,仅用850个训练样本便取得了良好效果。

0 人收藏 0 人点赞
#fine-tuning

@uzairansar: Qwythos-9B-Claude-Mythos-5 1M上下文微调版本发布!Empero刚刚发布了基于Claude Mythos的微调模型…

X AI KOLs Timeline · 2天前 缓存

Empero发布了Qwythos-9B-Claude-Mythos-5,这是一个基于Fable-5和Mythos-5会话日志的合成思维链数据,使用1M上下文微调的全参数推理模型。

0 人收藏 0 人点赞
#fine-tuning

@analogalok: gemma-4-12B-agentic-fable5-composer2.5 V2 已发布。对基于 Fable 5 推理训练的模型进行了智能体升级。运行…

X AI KOLs Timeline · 2天前 缓存

Gemma 4 12B 的一个新微调版本,基于 Fable 5 的推理进行训练,在智能体编码基准测试中实现了显著提升(从15%到55%),并且可以使用 llama.cpp 的自定义分支在 8GB VRAM GPU 上本地运行。

0 人收藏 0 人点赞
#fine-tuning

针对《古兰经》语音识别的预训练Transformer模型比较研究:语音表示、标签格式与数据集构成

arXiv cs.AI · 3天前 缓存

本文系统性地实证研究了针对《古兰经》自动语音识别(ASR)的预训练Transformer模型(Wav2Vec2.0、HuBERT、XLS-R)微调,在EveryAyah子集上实现了0.08的词错误率(WER),并将训练时间从140小时减少到40小时,其中Wav2Vec2-XLSR-53提供了最佳表示。

0 人收藏 0 人点赞
#fine-tuning

[新模型] SupraLabs 刚刚发布了 supra-title-FFT-preview,115K 样本,几乎是我们的首个聊天标题数据集的10倍

Reddit r/LocalLLaMA · 3天前

SupraLabs 发布了 supra-title-FFT-preview,一个完全微调的0.4B参数模型,用于聊天标题生成,在115K样本上训练——比之前的数据集大了近10倍。

0 人收藏 0 人点赞
#fine-tuning

@0x0SojalSec: 想象一下,在Kaggle上免费微调一个31B参数的多模态模型。现在你可以训练这个庞大的31B密集型多模态模型……

X AI KOLs Timeline · 3天前 缓存

Unsloth 使得在Kaggle上免费微调31B参数的多模态模型成为可能,采用4位量化,本地运行仅需22-24GB VRAM。

0 人收藏 0 人点赞
#fine-tuning

可验证的搜索不是可学习的思维链

Hugging Face Daily Papers · 3天前 缓存

本文表明,在需要回溯搜索的任务上,使用思维链演示训练模型会失败,说明搜索过程无法被忠实模仿。作者发现,即使模型在子组件上表现良好,它们也无法在密码算术任务中推进从左到右的推导。

0 人收藏 0 人点赞
#fine-tuning

迈向无风险开源权重模型:分离LLM中的公共与私有能力

Hugging Face Daily Papers · 4天前 缓存

本文提出层级语言模型(TLMs),允许单套开源权重模型参数通过密钥控制支持多种能力级别。该方法能在保持公共模型行为并抵御提取的同时,选择性暴露私有能力。

0 人收藏 0 人点赞
#fine-tuning

@OpenAI:我们还测试了在压力下对齐是否持续。该模型更难通过对抗性提示被引导到有害行为,……

X AI KOLs · 4天前 缓存

OpenAI报告称,其模型通过对抗性提示和微调表现出对有害行为的更强抵抗力,表明在压力下对齐持久性有所提高。

0 人收藏 0 人点赞
#fine-tuning

@oneill_c: 1/ 我们微调了很多客户模型,因此我们决定系统地尝试找出一些微调的最佳实践…

X AI KOLs Following · 5天前 缓存

该帖子分享了关于微调最佳实践的系统性实验结果,一次改变一个SFT变量,涵盖密集模型和MoE模型(参数规模达235B),在四个真实客户数据集上使用自定义评估来消除混淆因素。

0 人收藏 0 人点赞
#fine-tuning

@MiaAI_lab:我使用Fable-5风格推理和助手轨迹对Gemma 4 12B进行了微调,并将其发布为Gemmable 4 12b。**可用…

X AI KOLs Timeline · 5天前 缓存

Mia-AiLab发布了Gemmable 4 12B,这是Google Gemma 4 12B模型的微调版本,使用了Fable-5风格推理和助手轨迹,提供GGUF和MLX格式用于本地推理。

0 人收藏 0 人点赞
#fine-tuning

LocalLLaMA 众包编程数据集

Reddit r/LocalLLaMA · 5天前

一位社区成员提议为本地大语言模型创建一个众包编程数据集,以实现协作模型训练和微调,并回应了关于未来开源权重模型可用性的担忧。

0 人收藏 0 人点赞
#fine-tuning

PragReST: 自我增强的反事实推理用于语用语言理解

arXiv cs.CL · 5天前 缓存

PragReST 是一个自监督框架,通过生成反事实推理轨迹并利用监督微调和强化学习训练模型,提升大语言模型的语用推理能力,在语用基准测试上取得了显著提升,且无需人工标注数据。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈