pretraining

标签

Cards List
#pretraining

我从头开始预训练和后训练了一个500M参数的LLM和一个330M参数的图像生成器

Reddit r/LocalLLaMA · 2天前

作者详细介绍了从头开始预训练和后训练一个500M参数的语言模型和一个330M参数的图像生成器的过程。

0 人收藏 0 人点赞
#pretraining

揭秘数据受限语言模型预训练中的训练时数据增强

Hugging Face Daily Papers · 5天前 缓存

本文研究了在数据受限、算力充足的场景下,为缓解自回归语言模型预训练中的过拟合而采用训练时数据增强技术,发现结合词元级噪声、序列排列和目标偏移预测可以改善验证损失。

0 人收藏 0 人点赞
#pretraining

HumanScale: 自我中心人类视频在具身预训练中可超越真实机器人数据

Hugging Face Daily Papers · 6天前 缓存

本文发现,经过过滤和标注流水线处理的自我中心人类视频,在预训练具身基础模型时可以超越遥操作真实机器人数据,在真实机器人任务上实现了更低的验证损失和更高的成功率。

0 人收藏 0 人点赞
#pretraining

重新思考LLM FP4预训练中的收缩偏差:几何起源、系统性影响与UFP4方案

Hugging Face Daily Papers · 6天前 缓存

本文识别了LLM预训练中非均匀FP4量化格式的一个根本限制(收缩偏差),并提出了UFP4,一种优于现有基于E2M1方法的统一4位训练方案。

0 人收藏 0 人点赞
#pretraining

小初始化对大语言模型至关重要

arXiv cs.AI · 6天前 缓存

本文表明,降低参数初始化规模能持续改善大型语言模型的预训练,且在推理密集型任务上收益最大。它发现了一种平衡推理与训练的关键初始化,并提出一个简单的γ-初始化规则。

0 人收藏 0 人点赞
#pretraining

Spokes: 优化多样化的预训练数据选择

arXiv cs.CL · 2026-06-16 缓存

本文介绍了Spokes,一个基于G-Vendi分数的概率多样化框架,通过联合优化质量和多样性,在FineWeb和DCLM上实现了下游任务性能的显著提升。

0 人收藏 0 人点赞
#pretraining

@yacinelearning:各位系好安全带,本周四我们邀请到了@joelniklaus(来自@huggingface)加入直播,分享合成数据如何推动预训练的发展……

X AI KOLs Timeline · 2026-06-15 缓存

Hugging Face 的 Joel Niklaus 将进行直播,探讨合成数据在推动预训练中的作用;团队还发布了一份关于该主题的实践指南。

0 人收藏 0 人点赞
#pretraining

ACE-Ego-0: 统一第一人称人类与机器人数据用于VLA预训练

Hugging Face Daily Papers · 2026-06-15 缓存

ACE-EGO-0是一个统一的视觉-语言-动作预训练框架,利用第一人称人类视频和机器人轨迹,通过可靠性感知训练目标,在具身AI基准上达到了最先进水平。

0 人收藏 0 人点赞
#pretraining

AC-ODM: Actor-Critic在线数据混合方法用于样本高效的大语言模型预训练

Hugging Face Daily Papers · 2026-06-14 缓存

AC-ODM 使用强化学习动态优化大语言模型的预训练数据组成,实现了更快的收敛速度和更高的下游任务准确率,且计算开销可忽略不计。

0 人收藏 0 人点赞
#pretraining

OpenMedQ:面向医学视觉语言模型的广泛开放预训练

arXiv cs.AI · 2026-06-12 缓存

OpenMedQ 是一个完全开放的医学视觉语言模型,在 14 个数据集(约 335 万样本)上进行预训练,在医学 VQA 和分类基准上取得了最先进的结果。

0 人收藏 0 人点赞
#pretraining

用于多任务ADME性质预测的概率对比预训练

arXiv cs.LG · 2026-06-11 缓存

本文提出了一种用于分子图变换器的概率对比预训练框架,以改善药物发现中的多任务ADME性质预测,在三个基准上取得了显著提升。

0 人收藏 0 人点赞
#pretraining

中心与边缘:基于网络图中心性的预训练数据选择

arXiv cs.CL · 2026-06-11 缓存

本文介绍了WebGraphMix,一个轻量级框架,利用来自Common Crawl的网络图中心性分数来选择预训练数据,实验表明混合中心文档与边缘文档能够提升语言模型性能。

0 人收藏 0 人点赞
#pretraining

小型实验,更便宜的决策:微预训练中分阶段提升的案例研究

arXiv cs.CL · 2026-06-11 缓存

本文研究了一种用于微预训练的分阶段提升协议,使用从分钟到小时递增的预算来筛选配置。研究发现,早期筛选是有用的但不稳定,并且分阶段方法可以保留长期参考,同时识别出未能通过继续阈值的替代方案。

0 人收藏 0 人点赞
#pretraining

LabVLA:在科学实验室中落地视觉-语言-动作模型

Hugging Face Daily Papers · 2026-06-11 缓存

LabVLA是一种面向科学实验室自动化的视觉-语言-动作模型,采用两阶段训练方法,结合动作令牌预训练与流匹配。通过在LabUtopia基准上利用模拟数据弥合家庭演示与实验室特定任务之间的差距,它实现了最先进的成功率。

0 人收藏 0 人点赞
#pretraining

混合而非挑选:为何合成语料组合对时间序列基础模型预训练至关重要

arXiv cs.LG · 2026-06-10 缓存

本文系统评估了11种用于基础模型预训练的合成时间序列生成器,发现生成器的排名在不同架构下不稳定,但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料,从而将合成预训练重新定义为语料组合问题而非生成器选择问题。

0 人收藏 0 人点赞
#pretraining

EditSR:通过基于编辑的修正增强神经符号回归

arXiv cs.AI · 2026-06-09 缓存

EditSR 提出了一种双层框架,将神经符号回归模型与基于编辑的修正器(Rectifier)相结合,以高效修正生成表达式中的结构错误,减少错误累积,并以有限的额外成本提高复杂符号结构的恢复能力。

0 人收藏 0 人点赞
#pretraining

GRASP: 面向可扩展预训练数据归因的几何感知残差对齐

arXiv cs.LG · 2026-06-08 缓存

GRASP 提出了一种几何感知、基于交互的可扩展预训练数据归因方法,该方法对子集动态进行建模,在任务级秩相关上比现有加性方法提升超过两倍,同时降低了计算成本。

0 人收藏 0 人点赞
#pretraining

数据受限的语言模型预训练:改进的正则化与缩放定律

arXiv cs.LG · 2026-06-08 缓存

本文研究数据受限的语言模型预训练,提出了掩码输入正则化(MIR)以改进验证损失和下游性能,以及SoftQ,一种更好地捕捉重复数据下模型与数据交互的缩放定律。

0 人收藏 0 人点赞
#pretraining

大规模端到端上下文压缩

Hugging Face Daily Papers · 2026-06-08 缓存

本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。

0 人收藏 0 人点赞
#pretraining

@vintcessun: 预训练原来可以这么省?1B模型、~$1000就能从零训出可用的基础模型,计算和数据量直接砍掉数百倍。核心不靠堆算力,而是层次递归架构加上潜在空间推理,配合PrefixLM packing和FA3把效率拉满。有点离谱,但论文和代码都开源了。

X AI KOLs Timeline · 2026-06-05 缓存

HRM-Text发布了一个1B参数的基础模型,声称仅需约$1000即可从零完成预训练,计算量和数据量减少数百倍,采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术,论文与代码均已开源。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈