sft

#sft

@cjzafir: 今天微调你的第一个AI模型。运行GPT4o级别的模型，并在你的手机或笔记本电脑上运行。@OpenBMB发布了15M样本…

X AI KOLs Following ↗ · 5天前缓存

OpenBMB发布了UltraData-SFT-2605，一个包含1500万样本的高质量SFT数据集，用于微调如MiniCPM5-1B等AI模型，使其能在手机或笔记本电脑上运行。

1 人收藏 1 人点赞

#sft

@AdinaYakup: OpenBMB 刚刚发布了一个令人印象深刻的有监督微调数据集 UltraData-SFT-2605，包含 1500 万以上高质量样本，覆盖深度思考与非思考等类型……

X AI KOLs Following ↗ · 6天前缓存

OpenBMB 发布了 UltraData-SFT-2605，这是一个大规模数据集，包含超过 1500 万高质量样本，用于推理型大语言模型的监督微调（SFT），涵盖深度思考、非思考、数学、代码、知识、指令遵循和多语言数据。

0 人收藏 0 人点赞

#sft

可学习性引导的扩散语言模型微调

arXiv cs.CL ↗ · 2026-05-25 缓存

我们提出LIFT，一种可学习性引导的扩散语言模型微调算法，该算法根据 token 难度和时间步对齐训练，在推理基准测试上取得了显著提升。

0 人收藏 0 人点赞

#sft

我微调了一个大语言模型使其成为C-3PO，以测试哪种训练数据格式最适用于人格注入 [P]

Reddit r/MachineLearning ↗ · 2026-05-23 缓存

一项实验比较了三种监督微调数据格式（示范对话、第一人称陈述、合成文档）用于将C-3PO人格注入Qwen3-4B，发现第一人称陈述在泛化方面最佳，合成文档在事实知识方面最佳。

0 人收藏 0 人点赞

#sft

@maximelabonne: 这真是太棒了！动态微调（DFT）根据模型自身的 token 概率重新加权 SFT 损失，这产生了一个……

X AI KOLs Following ↗ · 2026-05-20 缓存

动态微调（DFT）被介绍为一种方法，它利用模型自身的 token 概率重新加权 SFT 损失，形成一个反馈循环，并添加前向KL散度来惩罚那些基础模型认为很可能但策略已将其推向零概率的 token。这条推文对实际应用中的SFT论文表示怀疑，但赞赏这一尝试。

0 人收藏 0 人点赞

#sft

@omarsar0: https://x.com/omarsar0/status/2057114824467792189

X AI KOLs Following ↗ · 2026-05-20 缓存

本文介绍了使用 Fireworks Agent 自动化微调一个小型开放权重模型，以生成维基百科风格的摘要，从而形成一个自我改进的智能体循环，使得模型训练成为一个可调用的步骤。

0 人收藏 0 人点赞

#sft

@anyscalecompute: LLM 后训练是新的基线。选择错误的方法或 GPU 配置会导致浪费 36 小时的运行。推出…

X AI KOLs Following ↗ · 2026-05-15 缓存

Anyscale 推出了一款新的 LLM 后训练 Agent Skill，可自动选择最优的微调方法（SFT、DPO、GRPO 等）并生成可随时启动的配置，帮助避免 GPU 运行浪费。

0 人收藏 0 人点赞

#sft

我训练了1B模型遵循指令，结果它更不听话了...

Reddit r/LocalLLaMA ↗ · 2026-05-14

作者用相同的SFT方法训练了1B、2B和3B模型，观察到1B和2B模型的指令遵循能力（IFEval）退步了，而3B模型却提升了，这可能与学习率或模型容量不同有关。

0 人收藏 0 人点赞

#sft

@percyliang：对于下一个Marin模型，我们正在整理新的数据混合。目前我们有18T tokens，但可能需要更多。所以……

X AI KOLs Following ↗ · 2026-05-13 缓存

Percy Liang宣布，对于下一个Marin模型，他们正在编译新的数据混合，并请求高质量的token数据用于预训练、中期训练和SFT。

0 人收藏 0 人点赞

#sft

@QGallouedec：TRL v1.4 发布！令我兴奋的两点：→ SFT 的分块 NLL 损失。显存占用大幅降低，损失值相同，通常速度更快。Qwen…

X AI KOLs Following ↗ · 2026-05-09 缓存

TRL v1.4 发布，该版本为 SFT 引入分块 NLL 损失以降低显存占用，并实现与 OpenReward 的一级集成以支持 GRPO。

0 人收藏 0 人点赞

#sft

输出多样性在后训练中的崩溃发生在哪里？

arXiv cs.CL ↗ · 2026-04-20 缓存

本文研究了语言模型后训练期间输出多样性崩溃的位置和原因，分析了三个 OLMo 3 训练线（Think、Instruct、RL-Zero）在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定，并在训练期间嵌入到模型权重中，仅通过推理时调整无法解决。

0 人收藏 0 人点赞

sft

提交意见反馈