data-generation

标签

Cards List
#data-generation

REGEN: 面向预测的参考引导型多元时间序列合成生成

arXiv cs.LG · 17小时前 缓存

ReGeN是一个参考引导的生成流水线,用于多元时间序列数据。它将观测序列分解为周期性骨干、随机残差和跨变量依赖关系,以合成可控的合成数据。结果表明,生成的数据可以替代真实数据用于预测任务,且性能优于以往的合成数据生成器。

0 人收藏 0 人点赞
#data-generation

GenesisFunc:面向精确且泛化的函数调用的多智能体数据生成

arXiv cs.CL · 2026-05-29 缓存

GenesisFunc是一个自动化多智能体管道,用于为LLM中的函数调用生成高质量、多样化的合成训练数据。在此数据上微调一个8B模型,可以在领域内和跨领域性能上取得强劲表现,与某些基于API的模型相媲美。

0 人收藏 0 人点赞
#data-generation

利用LLM驱动知识图谱推理生成逻辑一致的合成供应链数据

arXiv cs.CL · 2026-05-27 缓存

本文介绍了TabKG,一个知识图谱引导的框架,用于生成逻辑一致的合成供应链表格数据。它使用LLM集成发现操作依赖关系,并利用潜在扩散模型生成独立列,在保持统计保真度的同时实现高逻辑一致性。

0 人收藏 0 人点赞
#data-generation

@yacinelearning: 很棒的资源,来自Hugging Face,附有幻灯片,介绍了他们如何生成1万亿合成数据,非常酷…

X AI KOLs Following · 2026-05-26 缓存

Hugging Face 分享了幻灯片,详细介绍了他们如何生成1万亿个token的合成数据来训练基础模型。

0 人收藏 0 人点赞
#data-generation

知道何时放弃:通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成

arXiv cs.AI · 2026-05-15 缓存

本文提出了多阶段飞行中拒绝(MSIFR),一种无需训练的框架,通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中,MSIFR作为独立方法可减少11%-77%的令牌消耗,与早期退出方法结合时最多减少78.2%,同时保持或提升准确率。

0 人收藏 0 人点赞
#data-generation

按需生成合成训练数据时,什么才是关键?

Reddit r/ArtificialInteligence · 2026-05-14

Abliteration 推出了一种按需定制的合成训练数据工作流,可为分类器生成负样本、罕见样本和对抗性样本,包含模式、真实世界事实、标签、来源追溯,并支持导出到 Hugging Face 等平台。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈