pretraining

#pretraining

内部数据重复破坏语言模型

arXiv cs.LG ↗ · 8小时前缓存

本文系统研究了语言模型预训练过程中精确文档重复所造成的损害，表明以中等次数重复中等规模的子集对性能的损害最大，并且重复可能导致高达33%的计算浪费（以计算等效损失衡量）。

0 人收藏 0 人点赞

#pretraining

改进的大型语言扩散模型

arXiv cs.CL ↗ · 8小时前缓存

iLLaDA是一个80亿参数的掩码扩散语言模型，具有完全双向注意力机制，从头开始在12万亿token上训练。与LLaDA相比，它在多个方面都有显著改进，并在多个基准测试上与Qwen2.5 7B保持竞争力。模型和代码已开源。

0 人收藏 0 人点赞

#pretraining

@harold_matmul: dspy.GEPA 用于新微软AI工作中的预训练数据筛选 :-)

X AI KOLs Timeline ↗ · 19小时前缓存

本文解释了DSPy中的GEPA（基因-帕累托优化）如何用于高效的提示调优，特别是在微软AI的预训练数据筛选中应用，使研究人员能够用自动化的计算驱动优化取代手动提示工程。

0 人收藏 0 人点赞

#pretraining

PORTER: 基于语言的事件表示实现可移植结构化电子病历基础模型

arXiv cs.CL ↗ · 昨天缓存

PORTER是一种基于语言的结构化电子病历基础模型，通过文本描述和数值表示临床事件，能够实现跨机构的词汇无关迁移，无需重新训练。在儿科预测任务中，PORTER与固定词汇模型性能相当，并在迁移至未见事件描述时恢复了97.1%的AUROC。

0 人收藏 0 人点赞

#pretraining

我从头开始预训练和后训练了一个500M参数的LLM和一个330M参数的图像生成器

Reddit r/LocalLLaMA ↗ · 3天前

作者详细介绍了从头开始预训练和后训练一个500M参数的语言模型和一个330M参数的图像生成器的过程。

0 人收藏 0 人点赞

#pretraining

揭秘数据受限语言模型预训练中的训练时数据增强

Hugging Face Daily Papers ↗ · 6天前缓存

本文研究了在数据受限、算力充足的场景下，为缓解自回归语言模型预训练中的过拟合而采用训练时数据增强技术，发现结合词元级噪声、序列排列和目标偏移预测可以改善验证损失。

0 人收藏 0 人点赞

#pretraining

HumanScale: 自我中心人类视频在具身预训练中可超越真实机器人数据

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

本文发现，经过过滤和标注流水线处理的自我中心人类视频，在预训练具身基础模型时可以超越遥操作真实机器人数据，在真实机器人任务上实现了更低的验证损失和更高的成功率。

0 人收藏 0 人点赞

#pretraining

重新思考LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方案

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

本文识别了LLM预训练中非均匀FP4量化格式的一个根本限制（收缩偏差），并提出了UFP4，一种优于现有基于E2M1方法的统一4位训练方案。

0 人收藏 0 人点赞

#pretraining

小初始化对大语言模型至关重要

arXiv cs.AI ↗ · 2026-06-17 缓存

本文表明，降低参数初始化规模能持续改善大型语言模型的预训练，且在推理密集型任务上收益最大。它发现了一种平衡推理与训练的关键初始化，并提出一个简单的γ-初始化规则。

0 人收藏 0 人点赞

#pretraining

Spokes: 优化多样化的预训练数据选择

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了Spokes，一个基于G-Vendi分数的概率多样化框架，通过联合优化质量和多样性，在FineWeb和DCLM上实现了下游任务性能的显著提升。

0 人收藏 0 人点赞

#pretraining

@yacinelearning：各位系好安全带，本周四我们邀请到了@joelniklaus（来自@huggingface）加入直播，分享合成数据如何推动预训练的发展……

X AI KOLs Timeline ↗ · 2026-06-15 缓存

Hugging Face 的 Joel Niklaus 将进行直播，探讨合成数据在推动预训练中的作用；团队还发布了一份关于该主题的实践指南。

0 人收藏 0 人点赞

#pretraining

ACE-Ego-0: 统一第一人称人类与机器人数据用于VLA预训练

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

ACE-EGO-0是一个统一的视觉-语言-动作预训练框架，利用第一人称人类视频和机器人轨迹，通过可靠性感知训练目标，在具身AI基准上达到了最先进水平。

0 人收藏 0 人点赞

#pretraining

AC-ODM: Actor-Critic在线数据混合方法用于样本高效的大语言模型预训练

Hugging Face Daily Papers ↗ · 2026-06-14 缓存

AC-ODM 使用强化学习动态优化大语言模型的预训练数据组成，实现了更快的收敛速度和更高的下游任务准确率，且计算开销可忽略不计。

0 人收藏 0 人点赞

#pretraining

OpenMedQ：面向医学视觉语言模型的广泛开放预训练

arXiv cs.AI ↗ · 2026-06-12 缓存

OpenMedQ 是一个完全开放的医学视觉语言模型，在 14 个数据集（约 335 万样本）上进行预训练，在医学 VQA 和分类基准上取得了最先进的结果。

0 人收藏 0 人点赞

#pretraining

用于多任务ADME性质预测的概率对比预训练

arXiv cs.LG ↗ · 2026-06-11 缓存

本文提出了一种用于分子图变换器的概率对比预训练框架，以改善药物发现中的多任务ADME性质预测，在三个基准上取得了显著提升。

0 人收藏 0 人点赞

#pretraining

中心与边缘：基于网络图中心性的预训练数据选择

arXiv cs.CL ↗ · 2026-06-11 缓存

本文介绍了WebGraphMix，一个轻量级框架，利用来自Common Crawl的网络图中心性分数来选择预训练数据，实验表明混合中心文档与边缘文档能够提升语言模型性能。

0 人收藏 0 人点赞

#pretraining

小型实验，更便宜的决策：微预训练中分阶段提升的案例研究

arXiv cs.CL ↗ · 2026-06-11 缓存

本文研究了一种用于微预训练的分阶段提升协议，使用从分钟到小时递增的预算来筛选配置。研究发现，早期筛选是有用的但不稳定，并且分阶段方法可以保留长期参考，同时识别出未能通过继续阈值的替代方案。

0 人收藏 0 人点赞

#pretraining

LabVLA：在科学实验室中落地视觉-语言-动作模型

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

LabVLA是一种面向科学实验室自动化的视觉-语言-动作模型，采用两阶段训练方法，结合动作令牌预训练与流匹配。通过在LabUtopia基准上利用模拟数据弥合家庭演示与实验室特定任务之间的差距，它实现了最先进的成功率。

0 人收藏 0 人点赞

#pretraining

混合而非挑选：为何合成语料组合对时间序列基础模型预训练至关重要

arXiv cs.LG ↗ · 2026-06-10 缓存

本文系统评估了11种用于基础模型预训练的合成时间序列生成器，发现生成器的排名在不同架构下不稳定，但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料，从而将合成预训练重新定义为语料组合问题而非生成器选择问题。

0 人收藏 0 人点赞

#pretraining

EditSR：通过基于编辑的修正增强神经符号回归

arXiv cs.AI ↗ · 2026-06-09 缓存

EditSR 提出了一种双层框架，将神经符号回归模型与基于编辑的修正器（Rectifier）相结合，以高效修正生成表达式中的结构错误，减少错误累积，并以有限的额外成本提高复杂符号结构的恢复能力。

0 人收藏 0 人点赞

pretraining

提交意见反馈