synthetic-data

#synthetic-data

一种专门用于加速罕见病诊断的推理型大型语言模型：一项随机AI医生辅助试验

arXiv cs.AI ↗ · 7小时前缓存

本文介绍了RaDaR，一个320亿参数的开源推理型大语言模型，基于公开和合成的罕见病病例进行训练。在诊断基准测试中，其表现优于DeepSeek-R1等更大模型，并在随机试验中将医生诊断准确率提升了21.44个百分点。

0 人收藏 0 人点赞

#synthetic-data

@natolambert: 为新书增加的新讲座！名义上是关于合成数据，但主要是对蒸馏文献的回顾，从……

X AI KOLs Timeline ↗ · 20小时前缓存

Natolambert 宣布了一场新讲座，内容涵盖合成数据和蒸馏的历史，从 Hinton 2015 年的论文到现代的 on-policy 蒸馏，视频总时长超过 7 小时。

0 人收藏 0 人点赞

#synthetic-data

NVIDIA 为电信运营带来可信赖的全天候 AI 代理

NVIDIA Blog ↗ · 昨天缓存

NVIDIA 在 DTW Ignite 2026 上发布了面向电信运营的新 AI 代理和工具，包括合成数据生成和安全代理运行时。该平台旨在通过结合领域特定模型、隐私安全的合成数据和基于策略的护栏，实现自主网络。

0 人收藏 0 人点赞

#synthetic-data

@neural_avb: 顺便说一下，Joel 是那篇关于《合成数据指南》的精彩 HuggingFace 文章的作者。这是一篇马拉松式的综述，每个人都……

X AI KOLs Timeline ↗ · 5天前缓存

一条推文强调了 Joël Niklaus 关于《合成数据指南》的 HuggingFace 文章，该文章启发了 text-albumentations 库。

0 人收藏 0 人点赞

#synthetic-data

通过合成数据蒸馏实现高效的金融语言理解

arXiv cs.CL ↗ · 6天前缓存

介绍了一种利用合成数据进行蒸馏的金融情感分析框架，将知识从大型教师模型迁移到紧凑学生模型，并采用基于聚类的种子选择方法实现高效的低资源领域适应。

0 人收藏 0 人点赞

#synthetic-data

想要更好的合成数据？引导它：用于低资源语言生成的激活引导

arXiv cs.CL ↗ · 6天前缓存

本文研究了激活引导作为替代少样本提示的方法，用于生成低资源语言的合成数据。作者提出了LanguageSteering和QualitySteering策略，表明在早期层进行引导可以提高数据多样性并改善下游模型性能。

0 人收藏 0 人点赞

#synthetic-data

PSyGenTAB: 一种通过约束优化生成合成临床表格数据的隐私保护框架

arXiv cs.LG ↗ · 6天前缓存

PSyGenTAB是一种隐私保护框架，使用约束优化生成合成临床表格数据，平衡隐私与实用性，同时保留临床关系和少数类模式。

0 人收藏 0 人点赞

#synthetic-data

@Ex0byt: 一个必须收藏的.. 小但厉害的团队, 4个H100节点, 开源三阶段训练方案, 在8k合成评分任务上训练, fu…

X AI KOLs Timeline ↗ · 6天前缓存

一个小团队在学术预算下，仅使用32块H100和8K个合成样本，训练了一个前沿级别的深度研究智能体，并完全公开了从2B到35B模型的权重、代码和论文，这些模型在关键基准测试中匹配或超越了封闭的前沿智能体。

0 人收藏 0 人点赞

#synthetic-data

@KaiZhang_CS: 看看由 @jianxie_ 训练的最佳开源搜索代理之一！！很高兴看到早期经验方法在……

X AI KOLs Timeline ↗ · 6天前缓存

Yu Su 的团队在有限的学术预算下训练了一个前沿的 Deep Research Agent，使用 8K 合成样本和强化学习，并发布了完全开放的训练基础设施和从 2B 到 35B 参数的模型。

0 人收藏 0 人点赞

#synthetic-data

Slop Paradox: 合成标准化如何侵蚀AI重写放射学报告中的临床不确定性和跨模态对齐

arXiv cs.CL ↗ · 2026-06-17 缓存

本文测量了AI重写放射学报告中的信息退化，发现那些为多模态训练生成更干净文本的任务会导致更大的跨模态对齐损失，这一现象被称为'slop paradox'。

0 人收藏 0 人点赞

#synthetic-data

利用信息性缺失生成不规则临床时间序列

arXiv cs.LG ↗ · 2026-06-17 缓存

提出了一种基于扩散的方法来生成不规则临床时间序列，该方法联合建模实验室检测值及其观测模式，使用了来自MIMIC-III的DACMI基准。该模型在类似非随机缺失（MNAR-like）的缺失机制下，捕捉了患者生理状态与检验行为之间的临床有意义依赖关系。

0 人收藏 0 人点赞

#synthetic-data

远程单次条纹投影轮廓测量中的形状先验捷径诊断与修复

arXiv cs.LG ↗ · 2026-06-17 缓存

本文使用机制可解释性和保形不确定性量化方法，对基于学习的远程单次条纹投影轮廓测量中的形状先验捷径进行了诊断与修复。所提出的PhiCalNet架构通过将深度回归替换为包裹相位输出和可微标定层，使物体平均绝对误差降低了3.3倍。

0 人收藏 0 人点赞

#synthetic-data

@yacinelearning：各位系好安全带，本周四我们邀请到了@joelniklaus（来自@huggingface）加入直播，分享合成数据如何推动预训练的发展……

X AI KOLs Timeline ↗ · 2026-06-15 缓存

Hugging Face 的 Joel Niklaus 将进行直播，探讨合成数据在推动预训练中的作用；团队还发布了一份关于该主题的实践指南。

0 人收藏 0 人点赞

#synthetic-data

VeriGeo：具有数值与分析验证的可控几何问题生成

arXiv cs.AI ↗ · 2026-06-15 缓存

VeriGeo提出了一种可控几何问题生成框架，利用验证引导的反思确保数值与分析一致性。该方法生成高质量合成数据，在GeoQA上取得最先进结果，并在PGPS9K和MathVista-GPS上表现强劲。

0 人收藏 0 人点赞

#synthetic-data

当样本选择偏差加速模型崩溃时

arXiv cs.AI ↗ · 2026-06-15 缓存

本文表明，在低资源验证场景中，验证者仅能访问目标分布中碎片化且有偏的片段，此时数据选择会通过剪除全局相关的尾部模式，反而加速模型崩溃。作者提供了理论证明，并提出了一种协作代理参考机制作为缓解策略。

0 人收藏 0 人点赞

#synthetic-data

通过基于知识图谱的数据生成实现精确的文本到Cypher转换

arXiv cs.CL ↗ · 2026-06-15 缓存

本文提出了一种合成数据生成方法，用于微调小型LLM，将自然语言转换为属性图的Cypher查询，在实现本地部署和数据主权的同时，达到了与大型专有模型相竞争的性能。

0 人收藏 0 人点赞

#synthetic-data

ProCUA-SFT 技术报告

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

ProCUA-SFT 是一个大规模合成数据集，包含 310 万个步骤级别的 SFT 样本，用于训练计算机使用代理。该数据集通过使用单一 VLM（Kimi-K2.5）的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%，比基础模型提高了 18.7 个百分点。

0 人收藏 0 人点赞

#synthetic-data

TrajGenAgent：一种用于人类移动轨迹生成的分层LLM智能体

arXiv cs.AI ↗ · 2026-06-12 缓存

TrajGenAgent提出了一种分层LLM智能体框架，将宏观活动规划与微观时空实例化解耦，用于无需微调即可生成逼真的人类移动轨迹。它还引入了一种基于异常检测的评估方法，用于行为保真度。

0 人收藏 0 人点赞

#synthetic-data

RAG基准应精细到何种程度？一种层次化合成问题生成框架

arXiv cs.CL ↗ · 2026-06-12 缓存

本文介绍了HieraRAG，这是一种用于确定RAG基准最优粒度的层次化框架。它生成了跨三个维度的5,872个合成问答对，并发现理想粒度因维度而异，为从业者提供了一种可移植的程序。

0 人收藏 0 人点赞

#synthetic-data

混合而非挑选：为何合成语料组合对时间序列基础模型预训练至关重要

arXiv cs.LG ↗ · 2026-06-10 缓存

本文系统评估了11种用于基础模型预训练的合成时间序列生成器，发现生成器的排名在不同架构下不稳定，但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料，从而将合成预训练重新定义为语料组合问题而非生成器选择问题。

0 人收藏 0 人点赞

synthetic-data

提交意见反馈