标签
ReGeN是一个参考引导的生成流水线,用于多元时间序列数据。它将观测序列分解为周期性骨干、随机残差和跨变量依赖关系,以合成可控的合成数据。结果表明,生成的数据可以替代真实数据用于预测任务,且性能优于以往的合成数据生成器。
GenesisFunc是一个自动化多智能体管道,用于为LLM中的函数调用生成高质量、多样化的合成训练数据。在此数据上微调一个8B模型,可以在领域内和跨领域性能上取得强劲表现,与某些基于API的模型相媲美。
本文介绍了TabKG,一个知识图谱引导的框架,用于生成逻辑一致的合成供应链表格数据。它使用LLM集成发现操作依赖关系,并利用潜在扩散模型生成独立列,在保持统计保真度的同时实现高逻辑一致性。
Hugging Face 分享了幻灯片,详细介绍了他们如何生成1万亿个token的合成数据来训练基础模型。
本文提出了多阶段飞行中拒绝(MSIFR),一种无需训练的框架,通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中,MSIFR作为独立方法可减少11%-77%的令牌消耗,与早期退出方法结合时最多减少78.2%,同时保持或提升准确率。
Abliteration 推出了一种按需定制的合成训练数据工作流,可为分类器生成负样本、罕见样本和对抗性样本,包含模式、真实世界事实、标签、来源追溯,并支持导出到 Hugging Face 等平台。