data-generation

#data-generation

G-MAD：基于游戏的多视角RGB-T航空目标检测数据生成框架

Hugging Face Daily Papers ↗ · 4天前缓存

G-MAD是一个开源框架，利用Arma 3生成同步的多视角RGB-T航空目标检测数据，解决了真实世界数据集的局限性。它还引入了AMOD基准。

0 人收藏 0 人点赞

#data-generation

FlowMimic: 基于像素对扭曲流场的无掩码视觉编辑与生成——面向在线视频编辑数据生成与模态模仿

Hugging Face Daily Papers ↗ · 6天前缓存

FlowMimic 提出了一种方法，利用像素对扭曲流场实现跨视频和图像模态的无掩码视觉编辑与生成，能够从图像编辑样本实时生成视频编辑数据，并通过模仿损失对齐模态能力。

0 人收藏 0 人点赞

#data-generation

面向API调用智能体的无环境合成数据生成

Hugging Face Daily Papers ↗ · 2026-07-18 缓存

本文提出了一种面向训练API调用LLM智能体的无环境合成数据生成方法，利用LLM作为即时数字世界模型生成轨迹，并在具有挑战性的基准测试上展现出显著的性能提升。

0 人收藏 0 人点赞

#data-generation

@Vtrivedy10: 好的，虽然现在还早，但 @mattpocockuk 的 grill-me 技能感觉像是在迭代构建评估/环境时的绝佳开发者体验…

X AI KOLs Timeline ↗ · 2026-07-14 缓存

一条推文讨论了为AI代理构建评估和环境的迭代过程，强调了人机协作以及数据和验证器设计的重要性。

0 人收藏 0 人点赞

#data-generation

利用大型语言模型生成合成消费者洞察

arXiv cs.AI ↗ · 2026-07-08 缓存

本研究探讨了大型语言模型能否为投射技术生成合成消费者数据，通过比较人类与LLM在城市旅游感知上的回应，发现两者在主题上高度重叠，但在风格、语言结构和多样性生成方式上存在重要差异。

0 人收藏 0 人点赞

#data-generation

@neural_avb: https://x.com/neural_avb/status/2072294078805684613

X AI KOLs Timeline ↗ · 2026-07-01 缓存

本论文介绍了Autodata，这是一种利用智能“数据科学家”AI的方法，通过迭代生成、验证和优化来自动创建高质量合成数据集，该方法特别针对强化学习（GRPO）进行了优化，以提升语言模型的推理能力。

0 人收藏 0 人点赞

#data-generation

TDGT：一个支持自适应GPU加速贝叶斯混合模型、扩散模型和潜在空间生成建模的表格数据生成工具包

arXiv cs.LG ↗ · 2026-07-01 缓存

TDGT是一个用于合成表格数据生成的基于Web的工具包，引入了自适应贝叶斯混合合成器（ABMS）算法和混合VAE-ABMS模型，具有GPU加速和全面的保真度评估。

0 人收藏 0 人点赞

#data-generation

生成更好训练数据的智能体（25分钟阅读）

TLDR AI ↗ · 2026-06-26 缓存

Autodata 引入了一种智能体数据科学家，它能够迭代生成并优化合成训练数据，并通过元优化进一步提升数据质量，在计算机科学和法律推理任务上取得了更好的效果。

0 人收藏 0 人点赞

#data-generation

@rohanpaul_ai: 非常重要的Meta论文带来Autodata，一个自主数据科学家，用于创建高质量合成数据。主要…

X AI KOLs Following ↗ · 2026-06-25 缓存

Meta的新论文'Autodata'介绍了一个自主数据科学家，能够生成并元优化合成训练数据，显著优于标准方法，并使一个4B小模型在法律任务中击败了397B的基线模型。

0 人收藏 0 人点赞

#data-generation

@HarveenChadha: Meta 发布 Autodata：一个用于生成高质量合成数据的代理数据科学家，本质上是一个循环。给定一个…

X AI KOLs Timeline ↗ · 2026-06-25 缓存

Meta 发布 Autodata，一个通过迭代使用多个 LLM 调整任务难度来生成高质量合成数据的代理数据科学家，输出用于 GRPO 训练。

0 人收藏 0 人点赞

#data-generation

通过基于知识图谱的数据生成实现精确的文本到Cypher转换

arXiv cs.CL ↗ · 2026-06-15 缓存

本文提出了一种合成数据生成方法，用于微调小型LLM，将自然语言转换为属性图的Cypher查询，在实现本地部署和数据主权的同时，达到了与大型专有模型相竞争的性能。

0 人收藏 0 人点赞

#data-generation

REGEN: 面向预测的参考引导型多元时间序列合成生成

arXiv cs.LG ↗ · 2026-06-05 缓存

ReGeN是一个参考引导的生成流水线，用于多元时间序列数据。它将观测序列分解为周期性骨干、随机残差和跨变量依赖关系，以合成可控的合成数据。结果表明，生成的数据可以替代真实数据用于预测任务，且性能优于以往的合成数据生成器。

0 人收藏 0 人点赞

#data-generation

GenesisFunc：面向精确且泛化的函数调用的多智能体数据生成

arXiv cs.CL ↗ · 2026-05-29 缓存

GenesisFunc是一个自动化多智能体管道，用于为LLM中的函数调用生成高质量、多样化的合成训练数据。在此数据上微调一个8B模型，可以在领域内和跨领域性能上取得强劲表现，与某些基于API的模型相媲美。

0 人收藏 0 人点赞

#data-generation

利用LLM驱动知识图谱推理生成逻辑一致的合成供应链数据

arXiv cs.CL ↗ · 2026-05-27 缓存

本文介绍了TabKG，一个知识图谱引导的框架，用于生成逻辑一致的合成供应链表格数据。它使用LLM集成发现操作依赖关系，并利用潜在扩散模型生成独立列，在保持统计保真度的同时实现高逻辑一致性。

0 人收藏 0 人点赞

#data-generation

@yacinelearning: 很棒的资源，来自Hugging Face，附有幻灯片，介绍了他们如何生成1万亿合成数据，非常酷…

X AI KOLs Following ↗ · 2026-05-26 缓存

Hugging Face 分享了幻灯片，详细介绍了他们如何生成1万亿个token的合成数据来训练基础模型。

0 人收藏 0 人点赞

#data-generation

知道何时放弃：通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成

arXiv cs.AI ↗ · 2026-05-15 缓存

本文提出了多阶段飞行中拒绝（MSIFR），一种无需训练的框架，通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中，MSIFR作为独立方法可减少11%-77%的令牌消耗，与早期退出方法结合时最多减少78.2%，同时保持或提升准确率。

0 人收藏 0 人点赞

#data-generation

按需生成合成训练数据时，什么才是关键？

Reddit r/ArtificialInteligence ↗ · 2026-05-14

Abliteration 推出了一种按需定制的合成训练数据工作流，可为分类器生成负样本、罕见样本和对抗性样本，包含模式、真实世界事实、标签、来源追溯，并支持导出到 Hugging Face 等平台。

0 人收藏 0 人点赞

data-generation

提交意见反馈