标签
介绍CODA,一种GPU内核抽象,将Transformer操作表达为GEMM加尾声程序以减少数据移动,覆盖Transformer块中几乎所有非注意力计算。
本文提出高熵总和(HES),这是一种无需训练的度量方法,用于为LLM训练选择高质量推理数据,并在SFT、RFT和RL等范式中得到验证。
ACC将多轮智能体轨迹转化为长上下文问答对,用于训练LLMs在无需额外标注的情况下进行长程推理,在MRCR和GraphWalks基准测试上取得了显著提升,同时保持通用能力。
一条推文指出,按模型宽度缩放嵌入学习率可以替代µP(微参数化)的需求,并提到对隐藏层使用Muon优化器,其余部分使用Adam。
Modal宣布,AppliedCompute正在利用其平台为DoorDash、Mercor和Cognition等公司训练定制化智能体团队,强调从前沿模型向专用模型的转变。
斯坦福大学一门关于以人为中心的LLM的课程发布了一份60多页的报告,涵盖设计、数据来源、训练、评估和部署,用于开发人类能够有意义地与之协作的AI。
TideGS提出了一种外存训练框架,通过块虚拟化、异步流水线和差分流式传输技术,在SSD-CPU-GPU层级管理参数,使得在单个GPU上能够以超过十亿原语进行3D高斯泼溅训练。
本文提出φ-平衡,一种面向混合专家模型中负载平衡的理论框架,直接针对总体层面专家平衡,利用凸对偶和镜像下降,实现更稳定的专家利用率,并在推理和代码生成基准上超越先前方法。
一个个人项目最终产出了一篇ACL 2026论文,介绍了TIME方法,训练Qwen3模型进行短时、上下文触发的思考,而非过度推理。该工作使用了QLoRA和四阶段课程,所有数据和代码均已开源发布。
本文介绍了一种基于专家编写解决方案的token级统计的代理指标,用于预测LLM下游性能,在模型选择、预训练数据选择和训练时预测方面显著优于基于损失的方法。
研究人员提出了对称兼容优化器,这些优化器尊重神经网络参数的等变性结构,相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证,包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。
本文分析了AI的经济学,聚焦于GPU资源的争夺战,将人类推理的尖峰负载与智能体连续工作负载进行对比,并认为当前基础设施是为人类使用而优化的,而非要求更高的智能体推理。
一条Twitter帖子对Anthropic关于构建Claude代理的2小时培训视频做出反应,强调“Skills”功能可以持久化工作流程和专业知识,并对之前手动重复的工作表示遗憾。
Anthropic发布了关于构建Claude代理的全面2小时培训,由Claude Code背后的工程师主持,涵盖代理结构设计、终端访问、内存管理和幻觉预防。
dLLM是一个开源Python库,能以极少的计算资源将任意自回归语言模型转换为扩散语言模型,统一训练和评估。
本文介绍了DynMuon,一种动态频谱塑形优化器,它在训练过程中将更新参数p从正值调度为轻微负值,从而持续获得更低的验证损失,并且达到相同目标损失所需的步数比标准Muon优化器减少10.6%–26.5%。
AstraFlow是一个面向数据流的强化学习系统,支持智能体大语言模型的高效多策略协同训练与弹性扩展,训练速度相比现有系统提升2.7倍。
描述了一种训练技术,涉及 Spike-aware 教学奖励(惩罚不合理跳跃)和 Surprisal-gated 模仿(学生快速学习简单标记,缓慢学习困难标记)。
斯坦福NLP将CS336课程推广为学习成功训练最先进语言模型技巧的途径。
MinT 是一种托管基础设施系统,通过保持基础模型常驻并移动轻量级 LoRA 适配器,实现数百万个 LLM 的高效训练和服务,可跨模型架构、存储和策略管理进行扩展。