rht

标签

Cards List
#rht

重新思考LLM FP4预训练中的收缩偏差:几何起源、系统性影响与UFP4方案

Hugging Face Daily Papers · 6天前 缓存

本文识别了LLM预训练中非均匀FP4量化格式的一个根本限制(收缩偏差),并提出了UFP4,一种优于现有基于E2M1方法的统一4位训练方案。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈