llm-training

#llm-training

CLI-Universe：面向终端代理的可验证任务合成引擎

Hugging Face Daily Papers ↗ · 3天前缓存

CLI-Universe是一个合成引擎，通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务，并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B，在Terminal-Bench 2.0上达到了33.4%，为参数量在32B及以下的开源模型树立了新的最优水平。

0 人收藏 0 人点赞

#llm-training

@didier_lopes: 难以置信，Z. ai 竟然将其强化学习基础设施开源了。GLM-5.2 的整个 OPD 后训练只用了…

X AI KOLs Following ↗ · 5天前缓存

Z. ai 将其强化学习基础设施 slime 框架开源，该框架使 GLM-5.2 的 OPD 后训练在约两天内高效完成。slime 是一个用于强化学习扩展的 LLM 后训练框架，集成了 Megatron 和 SGLang，并已通过 GLM、Qwen、DeepSeek 和 Llama 等前沿模型的实战测试。

0 人收藏 0 人点赞

#llm-training

@rohanpaul_ai：这在金融AI领域早该如此。让SEC文件对机器可读，同时不扁平化会计逻辑…

X AI KOLs Following ↗ · 2026-06-17 缓存

来自斯坦福大学、加州大学和南京大学的研究人员发布了SEFD数据集，包含来自SEC文件的152B个词元，转换为保留布局的MultiMarkdown格式，保持表格结构用于LLM训练，且与Common Crawl的重叠很小。

0 人收藏 0 人点赞

#llm-training

@akshay_pachaar: 从头开始训练你自己的LLM。这个仓库从头构建了一个GPT风格的Transformer，完全不用高级库…

X AI KOLs Following ↗ · 2026-06-15 缓存

一个从零开始构建GPT风格Transformer的仓库，不使用高级库，涵盖了从数据预处理到生成的整个过程，并包括SFT和RLHF的指南。

0 人收藏 0 人点赞

#llm-training

文化漏斗：无法对齐数据中缺失的内容

arXiv cs.CL ↗ · 2026-06-15 缓存

本文介绍了'文化漏斗'概念，展示了LLM训练数据中的文化信号在后训练阶段急剧下降。作者发布了一个包含5.6M样本的标记数据集，以帮助在模型对齐中保留文化基础。

0 人收藏 0 人点赞

#llm-training

@ActuallyIsaak：这是一个实际运行的端到端过程，从训练到在LM Studio中使用训练好的LLM，由@lmstudio的MLX-LoRA-Studio提供

X AI KOLs Following ↗ · 2026-06-14 缓存

MLX-LoRA-Studio 是一款原生的macOS应用，用于在Apple Silicon上微调LLM，提供用户友好的界面，支持多种训练算法，包括SFT、DPO和QAT。它完全开源，允许本地私有微调，无需依赖云端。

0 人收藏 0 人点赞

#llm-training

@PierceZhang34: 10秒训练一个小模型! LLM 训练神器：http://llm.istanbul 初体验最近发现了一个超级有趣的开源风格工具网站 —— http://llm.istanbul，它号称 WebGPU LLM Workbench，意思是完全…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

介绍了一个名为 llm.istanbul 的 WebGPU LLM 工作台，可在浏览器中训练小模型、训练分词器并生成文本。无需服务器，完全本地运行。

0 人收藏 0 人点赞

#llm-training

通过多格式训练提升语言模型的跨格式鲁棒性

arXiv cs.CL ↗ · 2026-06-11 缓存

本文介绍了FormatMix，一种多格式训练方法，通过将部分训练项扩展为多个等效格式来提升LLM在不同答案格式间的一致性，表明格式多样性是鲁棒性的关键。

0 人收藏 0 人点赞

#llm-training

@akshay_pachaar: https://x.com/akshay_pachaar/status/2064700531600458093

X AI KOLs Following ↗ · 2026-06-10 缓存

本文介绍了如何使用GRPO微调LLM（Qwen3-8B）以实现可靠的JSON结构化输出，将模式准确率从62%提升至82%，超越了GPT-4.1的58%。

0 人收藏 0 人点赞

#llm-training

可验证环境是乐高积木：推理泛化的递归组合

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

本文提出RACES，一种递归自动组合框架，将可验证环境视为可组合的构建块，以扩展LLM的强化学习规模，通过组合算子实现高效的推理泛化。

0 人收藏 0 人点赞

#llm-training

@neural_avb: 如果你仔细想想，2026年的LLM训练其实是一个三步循环：- 用一些数据训练 - 内部测试/运行分类评估…

X AI KOLs Timeline ↗ · 2026-06-08 缓存

这条推文概述了2026年LLM训练的三步循环：用数据训练、运行评估、为表现不佳的任务添加合成数据。它强调了通过开源模型和廉价API进行合法蒸馏的易得性，并指出仅凭推理轨迹训练就能获得高分。

0 人收藏 0 人点赞

#llm-training

@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587

X AI KOLs Timeline ↗ · 2026-06-07 缓存

作者分享了从头训练一个160M参数大语言模型的经验，尝试了多种架构，如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。

0 人收藏 0 人点赞

#llm-training

面向通信高效流水线并行的学习子空间压缩

arXiv cs.LG ↗ · 2026-06-05 缓存

本文介绍 MAPL，一种针对流水线并行中激活值进行学习型正交压缩的方法，通过 Stiefel 流形约束和逐阶段分解锚定嵌入，在保持性能的同时降低通信开销。

0 人收藏 0 人点赞

#llm-training

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

Reddit r/MachineLearning ↗ · 2026-06-04

Hugging Face的Niels介绍了On-policy Distillation (OPD)，这是一种关键的后训练技术，用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode，并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。

0 人收藏 0 人点赞

#llm-training

预训练期间的RL探索：重新审视LLM训练的策略优化

arXiv cs.LG ↗ · 2026-06-04 缓存

哈佛大学的研究人员挑战了标准的LLM训练流程，证明强化学习可以在预训练期间有效应用，而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要，并提出并行平均RL和SFT目标的方法，该方法在所有讨论的其他训练方法中表现出色，跨所有指标均优于它们，同时保持了通用能力。

0 人收藏 0 人点赞

#llm-training

自蒸馏策略梯度

arXiv cs.LG ↗ · 2026-06-04 缓存

SDPG（自蒸馏策略梯度）是一种面向大语言模型的全新强化学习训练框架，结合了基于组相对验证器的优势函数、在线自蒸馏与KL正则化，旨在解决RLVR训练中稀疏奖励与训练不稳定的问题。该方法通过条件化特权上下文，使同一模型同时充当学生和教师，在稳定性和性能上均优于RLVR及自蒸馏基线方法。

0 人收藏 0 人点赞

#llm-training

学习该学什么：面向小语言模型SFT-then-RL推理的分阶段专属数据集

arXiv cs.CL ↗ · 2026-06-04 缓存

本文提出了一种难度感知的SFT-then-RL框架，用于在推理任务上训练小语言模型（参数量≤3B），核心观点是数据难度应与SFT（学习新技能）和RL（巩固已有技能）各自的不同角色相匹配。作者为困难SFT样本引入了Bridge机制，并针对RL失败案例提出了Critique Fine-Tuning方法，在五个推理基准测试上均取得了一致性提升。

0 人收藏 0 人点赞

#llm-training