training

#training

CODA: 将Transformer块重写为GEMM-尾声程序

Hacker News Top ↗ · 2026-05-22 缓存

介绍CODA，一种GPU内核抽象，将Transformer操作表达为GEMM加尾声程序以减少数据移动，覆盖Transformer块中几乎所有非注意力计算。

0 人收藏 0 人点赞

#training

面向LLM推理的统一数据选择

arXiv cs.CL ↗ · 2026-05-22 缓存

本文提出高熵总和（HES），这是一种无需训练的度量方法，用于为LLM训练选择高质量推理数据，并在SFT、RFT和RL等范式中得到验证。

0 人收藏 0 人点赞

#training

ACC：编译智能体轨迹以实现长上下文训练

arXiv cs.CL ↗ · 2026-05-22 缓存

ACC将多轮智能体轨迹转化为长上下文问答对，用于训练LLMs在无需额外标注的情况下进行长程推理，在MRCR和GraphWalks基准测试上取得了显著提升，同时保持通用能力。

0 人收藏 0 人点赞

#training

@maximelabonne：事实证明你从来都不需要真正需要µP，你只需要按模型宽度缩放嵌入学习率。我不是nanoGP…

X AI KOLs Following ↗ · 2026-05-21 缓存

一条推文指出，按模型宽度缩放嵌入学习率可以替代µP（微参数化）的需求，并提到对隐藏层使用Muon优化器，其余部分使用Adam。

0 人收藏 0 人点赞

#training

@modal: 前沿模型设定下限。专用模型提升上限。借助Modal，@AppliedCompute正在为DoorDash、Mercor和Cognition等公司训练定制化智能体团队…

X AI KOLs Following ↗ · 2026-05-20 缓存

Modal宣布，AppliedCompute正在利用其平台为DoorDash、Mercor和Cognition等公司训练定制化智能体团队，强调从前沿模型向专用模型的转变。

0 人收藏 0 人点赞

#training

@Diyi_Yang: AI的下一个前沿不仅是更强大的模型，更是能让人类有意义地生活与协作的AI：…

X AI KOLs Following ↗ · 2026-05-20 缓存

斯坦福大学一门关于以人为中心的LLM的课程发布了一份60多页的报告，涵盖设计、数据来源、训练、评估和部署，用于开发人类能够有意义地与之协作的AI。

0 人收藏 0 人点赞

#training

TideGS：通过外存优化实现超过十亿3D高斯泼溅原语的可扩展训练

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

TideGS提出了一种外存训练框架，通过块虚拟化、异步流水线和差分流式传输技术，在SSD-CPU-GPU层级管理参数，使得在单个GPU上能够以超过十亿原语进行3D高斯泼溅训练。

0 人收藏 0 人点赞

#training

$\phi$-平衡：面向混合专家训练

arXiv cs.LG ↗ · 2026-05-18 缓存

本文提出φ-平衡，一种面向混合专家模型中负载平衡的理论框架，直接针对总体层面专家平衡，利用凸对偶和镜像下降，实现更稳定的专家利用率，并在推理和代码生成基准上超越先前方法。

0 人收藏 0 人点赞

#training

我训练了TIME：基于Qwen模型的短时上下文触发思考而非过度思考

Reddit r/LocalLLaMA ↗ · 2026-05-18

一个个人项目最终产出了一篇ACL 2026论文，介绍了TIME方法，训练Qwen3模型进行短时、上下文触发的思考，而非过度推理。该工作使用了QLoRA和四阶段课程，所有数据和代码均已开源发布。

0 人收藏 0 人点赞

#training

基于代理指标的LLM下游性能预测

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

本文介绍了一种基于专家编写解决方案的token级统计的代理指标，用于预测LLM下游性能，在模型选择、预训练数据选择和训练时预测方面显著优于基于损失的方法。

0 人收藏 0 人点赞

#training

优化器设计的对称兼容原则：嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

研究人员提出了对称兼容优化器，这些优化器尊重神经网络参数的等变性结构，相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证，包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。

0 人收藏 0 人点赞

#training

AI经济学第二部分（11分钟阅读）

TLDR AI ↗ · 2026-05-18 缓存

本文分析了AI的经济学，聚焦于GPU资源的争夺战，将人类推理的尖峰负载与智能体连续工作负载进行对比，并认为当前基础设施是为人类使用而优化的，而非要求更高的智能体推理。

0 人收藏 0 人点赞

#training

@KaitoEtLIA：- 我每天都用Claude - 我觉得自己挺擅长的 - 我看了两位Anthropic工程师整整2小时的视频 - Claude的引擎…

X AI KOLs Timeline ↗ · 2026-05-16 缓存

一条Twitter帖子对Anthropic关于构建Claude代理的2小时培训视频做出反应，强调“Skills”功能可以持久化工作流程和专业知识，并对之前手动重复的工作表示遗憾。

0 人收藏 0 人点赞

#training

@Jouhatsu_ai: Anthropic发布了关于构建Claude代理的完整2小时培训。由构建Claude Code的工程师主持。

X AI KOLs Timeline ↗ · 2026-05-16 缓存

Anthropic发布了关于构建Claude代理的全面2小时培训，由Claude Code背后的工程师主持，涵盖代理结构设计、终端访问、内存管理和幻觉预防。

0 人收藏 0 人点赞

#training

@DailyDoseOfDS_: 将任意自回归LLM转换为扩散LM。dLLM是一个Python库，统一了扩散语言模型的训练与评估…

X AI KOLs Timeline ↗ · 2026-05-16 缓存

dLLM是一个开源Python库，能以极少的计算资源将任意自回归语言模型转换为扩散语言模型，统一训练和评估。

0 人收藏 0 人点赞

#training

DynMuon：一种动态频谱塑形视角下的Muon优化器

Hugging Face Daily Papers ↗ · 2026-05-16 缓存

本文介绍了DynMuon，一种动态频谱塑形优化器，它在训练过程中将更新参数p从正值调度为轻微负值，从而持续获得更低的验证损失，并且达到相同目标损失所需的步数比标准Muon优化器减少10.6%–26.5%。

0 人收藏 0 人点赞

#training

AstraFlow：面向数据流的智能体大语言模型强化学习系统

Hugging Face Daily Papers ↗ · 2026-05-15 缓存

AstraFlow是一个面向数据流的强化学习系统，支持智能体大语言模型的高效多策略协同训练与弹性扩展，训练速度相比现有系统提升2.7倍。

0 人收藏 0 人点赞

#training

@SOURADIPCHAKR18: 两个因素使其有效。1. Spike-aware 教学奖励：仅当模型正确且合理时才给予奖励。惩…

X AI KOLs Following ↗ · 2026-05-14 缓存

描述了一种训练技术，涉及 Spike-aware 教学奖励（惩罚不合理跳跃）和 Surprisal-gated 模仿（学生快速学习简单标记，缓慢学习困难标记）。

0 人收藏 0 人点赞

#training

@stanfordnlp：学习成功训练最先进语言模型的细节（即“技巧”或“秘诀”）有两条路径……

X AI KOLs Following ↗ · 2026-05-13 缓存

斯坦福NLP将CS336课程推广为学习成功训练最先进语言模型技巧的途径。

0 人收藏 0 人点赞

#training

MinT：用于训练和服务数百万LLM的托管基础设施

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

MinT 是一种托管基础设施系统，通过保持基础模型常驻并移动轻量级 LoRA 适配器，实现数百万个 LLM 的高效训练和服务，可跨模型架构、存储和策略管理进行扩展。

0 人收藏 0 人点赞

training

提交意见反馈