标签
本文介绍了RaDaR,一个320亿参数的开源推理型大语言模型,基于公开和合成的罕见病病例进行训练。在诊断基准测试中,其表现优于DeepSeek-R1等更大模型,并在随机试验中将医生诊断准确率提升了21.44个百分点。
Natolambert 宣布了一场新讲座,内容涵盖合成数据和蒸馏的历史,从 Hinton 2015 年的论文到现代的 on-policy 蒸馏,视频总时长超过 7 小时。
NVIDIA 在 DTW Ignite 2026 上发布了面向电信运营的新 AI 代理和工具,包括合成数据生成和安全代理运行时。该平台旨在通过结合领域特定模型、隐私安全的合成数据和基于策略的护栏,实现自主网络。
一条推文强调了 Joël Niklaus 关于《合成数据指南》的 HuggingFace 文章,该文章启发了 text-albumentations 库。
介绍了一种利用合成数据进行蒸馏的金融情感分析框架,将知识从大型教师模型迁移到紧凑学生模型,并采用基于聚类的种子选择方法实现高效的低资源领域适应。
本文研究了激活引导作为替代少样本提示的方法,用于生成低资源语言的合成数据。作者提出了LanguageSteering和QualitySteering策略,表明在早期层进行引导可以提高数据多样性并改善下游模型性能。
PSyGenTAB是一种隐私保护框架,使用约束优化生成合成临床表格数据,平衡隐私与实用性,同时保留临床关系和少数类模式。
一个小团队在学术预算下,仅使用32块H100和8K个合成样本,训练了一个前沿级别的深度研究智能体,并完全公开了从2B到35B模型的权重、代码和论文,这些模型在关键基准测试中匹配或超越了封闭的前沿智能体。
Yu Su 的团队在有限的学术预算下训练了一个前沿的 Deep Research Agent,使用 8K 合成样本和强化学习,并发布了完全开放的训练基础设施和从 2B 到 35B 参数的模型。
本文测量了AI重写放射学报告中的信息退化,发现那些为多模态训练生成更干净文本的任务会导致更大的跨模态对齐损失,这一现象被称为'slop paradox'。
提出了一种基于扩散的方法来生成不规则临床时间序列,该方法联合建模实验室检测值及其观测模式,使用了来自MIMIC-III的DACMI基准。该模型在类似非随机缺失(MNAR-like)的缺失机制下,捕捉了患者生理状态与检验行为之间的临床有意义依赖关系。
本文使用机制可解释性和保形不确定性量化方法,对基于学习的远程单次条纹投影轮廓测量中的形状先验捷径进行了诊断与修复。所提出的PhiCalNet架构通过将深度回归替换为包裹相位输出和可微标定层,使物体平均绝对误差降低了3.3倍。
Hugging Face 的 Joel Niklaus 将进行直播,探讨合成数据在推动预训练中的作用;团队还发布了一份关于该主题的实践指南。
VeriGeo提出了一种可控几何问题生成框架,利用验证引导的反思确保数值与分析一致性。该方法生成高质量合成数据,在GeoQA上取得最先进结果,并在PGPS9K和MathVista-GPS上表现强劲。
本文表明,在低资源验证场景中,验证者仅能访问目标分布中碎片化且有偏的片段,此时数据选择会通过剪除全局相关的尾部模式,反而加速模型崩溃。作者提供了理论证明,并提出了一种协作代理参考机制作为缓解策略。
本文提出了一种合成数据生成方法,用于微调小型LLM,将自然语言转换为属性图的Cypher查询,在实现本地部署和数据主权的同时,达到了与大型专有模型相竞争的性能。
ProCUA-SFT 是一个大规模合成数据集,包含 310 万个步骤级别的 SFT 样本,用于训练计算机使用代理。该数据集通过使用单一 VLM(Kimi-K2.5)的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%,比基础模型提高了 18.7 个百分点。
TrajGenAgent提出了一种分层LLM智能体框架,将宏观活动规划与微观时空实例化解耦,用于无需微调即可生成逼真的人类移动轨迹。它还引入了一种基于异常检测的评估方法,用于行为保真度。
本文介绍了HieraRAG,这是一种用于确定RAG基准最优粒度的层次化框架。它生成了跨三个维度的5,872个合成问答对,并发现理想粒度因维度而异,为从业者提供了一种可移植的程序。
本文系统评估了11种用于基础模型预训练的合成时间序列生成器,发现生成器的排名在不同架构下不稳定,但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料,从而将合成预训练重新定义为语料组合问题而非生成器选择问题。