training

标签

Cards List
#training

CODA: 将Transformer块重写为GEMM-尾声程序

Hacker News Top · 2026-05-22 缓存

介绍CODA,一种GPU内核抽象,将Transformer操作表达为GEMM加尾声程序以减少数据移动,覆盖Transformer块中几乎所有非注意力计算。

0 人收藏 0 人点赞
#training

面向LLM推理的统一数据选择

arXiv cs.CL · 2026-05-22 缓存

本文提出高熵总和(HES),这是一种无需训练的度量方法,用于为LLM训练选择高质量推理数据,并在SFT、RFT和RL等范式中得到验证。

0 人收藏 0 人点赞
#training

ACC:编译智能体轨迹以实现长上下文训练

arXiv cs.CL · 2026-05-22 缓存

ACC将多轮智能体轨迹转化为长上下文问答对,用于训练LLMs在无需额外标注的情况下进行长程推理,在MRCR和GraphWalks基准测试上取得了显著提升,同时保持通用能力。

0 人收藏 0 人点赞
#training

@maximelabonne:事实证明你从来都不需要真正需要µP,你只需要按模型宽度缩放嵌入学习率。我不是nanoGP…

X AI KOLs Following · 2026-05-21 缓存

一条推文指出,按模型宽度缩放嵌入学习率可以替代µP(微参数化)的需求,并提到对隐藏层使用Muon优化器,其余部分使用Adam。

0 人收藏 0 人点赞
#training

@modal: 前沿模型设定下限。专用模型提升上限。借助Modal,@AppliedCompute正在为DoorDash、Mercor和Cognition等公司训练定制化智能体团队…

X AI KOLs Following · 2026-05-20 缓存

Modal宣布,AppliedCompute正在利用其平台为DoorDash、Mercor和Cognition等公司训练定制化智能体团队,强调从前沿模型向专用模型的转变。

0 人收藏 0 人点赞
#training

@Diyi_Yang: AI的下一个前沿不仅是更强大的模型,更是能让*人类*有意义地生活与协作的AI:…

X AI KOLs Following · 2026-05-20 缓存

斯坦福大学一门关于以人为中心的LLM的课程发布了一份60多页的报告,涵盖设计、数据来源、训练、评估和部署,用于开发人类能够有意义地与之协作的AI。

0 人收藏 0 人点赞
#training

TideGS:通过外存优化实现超过十亿3D高斯泼溅原语的可扩展训练

Hugging Face Daily Papers · 2026-05-19 缓存

TideGS提出了一种外存训练框架,通过块虚拟化、异步流水线和差分流式传输技术,在SSD-CPU-GPU层级管理参数,使得在单个GPU上能够以超过十亿原语进行3D高斯泼溅训练。

0 人收藏 0 人点赞
#training

$\phi$-平衡:面向混合专家训练

arXiv cs.LG · 2026-05-18 缓存

本文提出φ-平衡,一种面向混合专家模型中负载平衡的理论框架,直接针对总体层面专家平衡,利用凸对偶和镜像下降,实现更稳定的专家利用率,并在推理和代码生成基准上超越先前方法。

0 人收藏 0 人点赞
#training

我训练了TIME:基于Qwen模型的短时上下文触发思考而非过度思考

Reddit r/LocalLLaMA · 2026-05-18

一个个人项目最终产出了一篇ACL 2026论文,介绍了TIME方法,训练Qwen3模型进行短时、上下文触发的思考,而非过度推理。该工作使用了QLoRA和四阶段课程,所有数据和代码均已开源发布。

0 人收藏 0 人点赞
#training

基于代理指标的LLM下游性能预测

Hugging Face Daily Papers · 2026-05-18 缓存

本文介绍了一种基于专家编写解决方案的token级统计的代理指标,用于预测LLM下游性能,在模型选择、预训练数据选择和训练时预测方面显著优于基于损失的方法。

0 人收藏 0 人点赞
#training

优化器设计的对称兼容原则:嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器

Hugging Face Daily Papers · 2026-05-18 缓存

研究人员提出了对称兼容优化器,这些优化器尊重神经网络参数的等变性结构,相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证,包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。

0 人收藏 0 人点赞
#training

AI经济学 第二部分(11分钟阅读)

TLDR AI · 2026-05-18 缓存

本文分析了AI的经济学,聚焦于GPU资源的争夺战,将人类推理的尖峰负载与智能体连续工作负载进行对比,并认为当前基础设施是为人类使用而优化的,而非要求更高的智能体推理。

0 人收藏 0 人点赞
#training

@KaitoEtLIA:- 我每天都用Claude - 我觉得自己挺擅长的 - 我看了两位Anthropic工程师整整2小时的视频 - Claude的引擎…

X AI KOLs Timeline · 2026-05-16 缓存

一条Twitter帖子对Anthropic关于构建Claude代理的2小时培训视频做出反应,强调“Skills”功能可以持久化工作流程和专业知识,并对之前手动重复的工作表示遗憾。

0 人收藏 0 人点赞
#training

@Jouhatsu_ai: Anthropic发布了关于构建Claude代理的完整2小时培训。由构建Claude Code的工程师主持。

X AI KOLs Timeline · 2026-05-16 缓存

Anthropic发布了关于构建Claude代理的全面2小时培训,由Claude Code背后的工程师主持,涵盖代理结构设计、终端访问、内存管理和幻觉预防。

0 人收藏 0 人点赞
#training

@DailyDoseOfDS_: 将任意自回归LLM转换为扩散LM。dLLM是一个Python库,统一了扩散语言模型的训练与评估…

X AI KOLs Timeline · 2026-05-16 缓存

dLLM是一个开源Python库,能以极少的计算资源将任意自回归语言模型转换为扩散语言模型,统一训练和评估。

0 人收藏 0 人点赞
#training

DynMuon:一种动态频谱塑形视角下的Muon优化器

Hugging Face Daily Papers · 2026-05-16 缓存

本文介绍了DynMuon,一种动态频谱塑形优化器,它在训练过程中将更新参数p从正值调度为轻微负值,从而持续获得更低的验证损失,并且达到相同目标损失所需的步数比标准Muon优化器减少10.6%–26.5%。

0 人收藏 0 人点赞
#training

AstraFlow:面向数据流的智能体大语言模型强化学习系统

Hugging Face Daily Papers · 2026-05-15 缓存

AstraFlow是一个面向数据流的强化学习系统,支持智能体大语言模型的高效多策略协同训练与弹性扩展,训练速度相比现有系统提升2.7倍。

0 人收藏 0 人点赞
#training

@SOURADIPCHAKR18: 两个因素使其有效。1. Spike-aware 教学奖励:仅当模型正确且合理时才给予奖励。惩…

X AI KOLs Following · 2026-05-14 缓存

描述了一种训练技术,涉及 Spike-aware 教学奖励(惩罚不合理跳跃)和 Surprisal-gated 模仿(学生快速学习简单标记,缓慢学习困难标记)。

0 人收藏 0 人点赞
#training

@stanfordnlp:学习成功训练最先进语言模型的细节(即“技巧”或“秘诀”)有两条路径……

X AI KOLs Following · 2026-05-13 缓存

斯坦福NLP将CS336课程推广为学习成功训练最先进语言模型技巧的途径。

0 人收藏 0 人点赞
#training

MinT:用于训练和服务数百万LLM的托管基础设施

Hugging Face Daily Papers · 2026-05-13 缓存

MinT 是一种托管基础设施系统,通过保持基础模型常驻并移动轻量级 LoRA 适配器,实现数百万个 LLM 的高效训练和服务,可跨模型架构、存储和策略管理进行扩展。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈