sft

标签

Cards List
#sft

@cjzafir: 今天微调你的第一个AI模型。运行GPT4o级别的模型,并在你的手机或笔记本电脑上运行。@OpenBMB发布了15M样本…

X AI KOLs Following · 5天前 缓存

OpenBMB发布了UltraData-SFT-2605,一个包含1500万样本的高质量SFT数据集,用于微调如MiniCPM5-1B等AI模型,使其能在手机或笔记本电脑上运行。

1 人收藏 1 人点赞
#sft

@AdinaYakup: OpenBMB 刚刚发布了一个令人印象深刻的有监督微调数据集 UltraData-SFT-2605,包含 1500 万以上高质量样本,覆盖深度思考与非思考等类型……

X AI KOLs Following · 6天前 缓存

OpenBMB 发布了 UltraData-SFT-2605,这是一个大规模数据集,包含超过 1500 万高质量样本,用于推理型大语言模型的监督微调(SFT),涵盖深度思考、非思考、数学、代码、知识、指令遵循和多语言数据。

0 人收藏 0 人点赞
#sft

可学习性引导的扩散语言模型微调

arXiv cs.CL · 2026-05-25 缓存

我们提出LIFT,一种可学习性引导的扩散语言模型微调算法,该算法根据 token 难度和时间步对齐训练,在推理基准测试上取得了显著提升。

0 人收藏 0 人点赞
#sft

我微调了一个大语言模型使其成为C-3PO,以测试哪种训练数据格式最适用于人格注入 [P]

Reddit r/MachineLearning · 2026-05-23 缓存

一项实验比较了三种监督微调数据格式(示范对话、第一人称陈述、合成文档)用于将C-3PO人格注入Qwen3-4B,发现第一人称陈述在泛化方面最佳,合成文档在事实知识方面最佳。

0 人收藏 0 人点赞
#sft

@maximelabonne: 这真是太棒了!动态微调(DFT)根据模型自身的 token 概率重新加权 SFT 损失,这产生了一个……

X AI KOLs Following · 2026-05-20 缓存

动态微调(DFT)被介绍为一种方法,它利用模型自身的 token 概率重新加权 SFT 损失,形成一个反馈循环,并添加前向KL散度来惩罚那些基础模型认为很可能但策略已将其推向零概率的 token。这条推文对实际应用中的SFT论文表示怀疑,但赞赏这一尝试。

0 人收藏 0 人点赞
#sft

@omarsar0: https://x.com/omarsar0/status/2057114824467792189

X AI KOLs Following · 2026-05-20 缓存

本文介绍了使用 Fireworks Agent 自动化微调一个小型开放权重模型,以生成维基百科风格的摘要,从而形成一个自我改进的智能体循环,使得模型训练成为一个可调用的步骤。

0 人收藏 0 人点赞
#sft

@anyscalecompute: LLM 后训练是新的基线。选择错误的方法或 GPU 配置会导致浪费 36 小时的运行。推出…

X AI KOLs Following · 2026-05-15 缓存

Anyscale 推出了一款新的 LLM 后训练 Agent Skill,可自动选择最优的微调方法(SFT、DPO、GRPO 等)并生成可随时启动的配置,帮助避免 GPU 运行浪费。

0 人收藏 0 人点赞
#sft

我训练了1B模型遵循指令,结果它更不听话了...

Reddit r/LocalLLaMA · 2026-05-14

作者用相同的SFT方法训练了1B、2B和3B模型,观察到1B和2B模型的指令遵循能力(IFEval)退步了,而3B模型却提升了,这可能与学习率或模型容量不同有关。

0 人收藏 0 人点赞
#sft

@percyliang:对于下一个Marin模型,我们正在整理新的数据混合。目前我们有18T tokens,但可能需要更多。所以……

X AI KOLs Following · 2026-05-13 缓存

Percy Liang宣布,对于下一个Marin模型,他们正在编译新的数据混合,并请求高质量的token数据用于预训练、中期训练和SFT。

0 人收藏 0 人点赞
#sft

@QGallouedec:TRL v1.4 发布!令我兴奋的两点:→ SFT 的分块 NLL 损失。显存占用大幅降低,损失值相同,通常速度更快。Qwen…

X AI KOLs Following · 2026-05-09 缓存

TRL v1.4 发布,该版本为 SFT 引入分块 NLL 损失以降低显存占用,并实现与 OpenReward 的一级集成以支持 GRPO。

0 人收藏 0 人点赞
#sft

输出多样性在后训练中的崩溃发生在哪里?

arXiv cs.CL · 2026-04-20 缓存

本文研究了语言模型后训练期间输出多样性崩溃的位置和原因,分析了三个 OLMo 3 训练线(Think、Instruct、RL-Zero)在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定,并在训练期间嵌入到模型权重中,仅通过推理时调整无法解决。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈