synthetic-data

#synthetic-data

TabPFN-3：技术报告

arXiv cs.LG ↗ · 7小时前缓存

TabPFN-3 是一个新的表格数据基础模型，在合成数据上预训练，可扩展到 100 万训练行，同时减少训练和推理时间，在表格预测、时间序列和关系数据上实现了最先进的性能。

0 人收藏 0 人点赞

#synthetic-data

Video2GUI：合成大规模交互轨迹以进行通用GUI智能体预训练

arXiv cs.CL ↗ · 7小时前缓存

提出了Video2GUI，一个从无标签教学视频中自动提取GUI交互轨迹的框架，构建了包含12M条轨迹、覆盖1500+应用的WildGUI数据集。在该数据上进行预训练，在GUI定位和动作基准测试上提升了5-20%。

0 人收藏 0 人点赞

#synthetic-data

在心理防御分类中利用上下文感知的合成增强缓解数据稀缺问题

arXiv cs.CL ↗ · 7小时前缓存

本文提出了一种结合上下文感知合成增强框架与混合分类模型的方法，以解决从文本中分类心理防御机制时的数据稀缺和类别不平衡问题。该方法在 PsyDefDetect 共享任务基准上取得了显著改进。

0 人收藏 0 人点赞

#synthetic-data

知道何时放弃：通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成

arXiv cs.AI ↗ · 7小时前缓存

本文提出了多阶段飞行中拒绝（MSIFR），一种无需训练的框架，通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中，MSIFR作为独立方法可减少11%-77%的令牌消耗，与早期退出方法结合时最多减少78.2%，同时保持或提升准确率。

0 人收藏 0 人点赞

#synthetic-data

按需生成合成训练数据时，什么才是关键？

Reddit r/ArtificialInteligence ↗ · 昨天

Abliteration 推出了一种按需定制的合成训练数据工作流，可为分类器生成负样本、罕见样本和对抗性样本，包含模式、真实世界事实、标签、来源追溯，并支持导出到 Hugging Face 等平台。

0 人收藏 0 人点赞

#synthetic-data

合成分层设计数据是否有利于分层设计分解？

Hugging Face Daily Papers ↗ · 昨天缓存

探究合成分层数据是否能改善图形设计分解，发现合成数据优于不可扩展的数据集，并能够实现均衡的层数分布。

0 人收藏 0 人点赞

#synthetic-data

@cjzafir: 这是我的微调数据集生成流程：> Codex 5.5 作为编排器 > Deepseek v4 Pro 作为生成器简而言之…

X AI KOLs Timeline ↗ · 昨天

本文描述了一个微调数据集生成流程，使用 Codex 5.5 作为编排器，Deepseek v4 Pro 作为生成器，通过自主质量门控和迭代改进，以低成本生成高质量合成数据。

0 人收藏 0 人点赞

#synthetic-data

IndicMedDialog：面向印度语言可及医疗的并行多轮医疗对话数据集

Hugging Face Daily Papers ↗ · 2天前缓存

IndicMedDialog 是一个并行多轮医疗对话数据集，涵盖英语和九种印度语言，并包含一个微调模型，用于个性化症状询问。该数据集源自 MDDial，通过LLM生成的合成咨询和专家验证进行增强，支持多语言医疗AI。

0 人收藏 0 人点赞

#synthetic-data

DataArc-SynData-Toolkit：用于多路径、多模态和多语言数据合成的统一闭环框架

arXiv cs.LG ↗ · 3天前缓存

本文介绍了 DataArc-SynData-Toolkit，这是一个开源框架，旨在简化多路径、多模态和多语言合成数据的生成。它通过统一的、基于配置的流水线，旨在降低技术门槛并提高在训练大型语言模型过程中的可用性。

0 人收藏 0 人点赞

#synthetic-data

LychSim：面向视觉研究的可控交互式仿真框架

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了 LychSim，这是一个基于 Unreal Engine 5 构建的可控仿真框架，旨在促进视觉研究、合成数据生成，并通过集成 MCP 实现智能体 LLM 的评估。

0 人收藏 0 人点赞

#synthetic-data

表格扩散模型中的隐私泄露：影响因素、攻击者知识与评估指标

arXiv cs.LG ↗ · 4天前缓存

本研究论文探讨了表格扩散模型中的隐私泄露问题，量化了训练设置、合成选择以及攻击者知识对隐私风险的影响。研究发现，即使在没有完美知识或庞大资源的情况下，攻击者仍能成功实施攻击，并揭示了启发式隐私评估指标的潜在缺陷。

0 人收藏 0 人点赞

#synthetic-data

PSK@EEUCA 2026：利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性

arXiv cs.CL ↗ · 4天前缓存

本文介绍了一个用于 EEUCA 2026 游戏聊天毒性检测共享任务的系统，该系统通过结合合成数据增强微调 Llama 3.1 8B 模型，获得了第四名。文章重点阐述了一种“验证陷阱”现象：由于数据分布偏移，较高的验证分数与测试集表现并不相关。

0 人收藏 0 人点赞

#synthetic-data

@dair_ai: 本周 AI 热门论文 (5 月 4 日 - 10 日) - Conductor - HeavySkill - Horizon Generalization - 1000 台合成计算机…

X AI KOLs Following ↗ · 4天前缓存

本周 AI 研究论文精选汇总，涵盖 Conductor、HeavySkill、Horizon Generalization、合成计算机、自我改进预训练以及用于井字棋变体（Connect Four）的 AlphaZero 等主题。

0 人收藏 0 人点赞

#synthetic-data

When2Speak: 面向大语言模型的多方对话时序参与与话轮转换数据集

arXiv cs.CL ↗ · 2026-05-08 缓存

When2Speak是一个合成数据集及流程，用于训练LLM在多方对话中决定何时发言。在该数据集上微调显著改善了话轮转换，强化学习将漏干预率从50%降至约20%。

0 人收藏 0 人点赞

#synthetic-data

强化学习能否教会大型语言模型进行长程推理？表达力是关键

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

本文介绍了 ScaleLogic 框架，该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调，逻辑表达力对于提升下游迁移能力和训练效率至关重要。

0 人收藏 0 人点赞

#synthetic-data

深入全宇宙：制造业“仿真优先”时代已至

NVIDIA Blog ↗ · 2026-04-28 缓存

制造企业正采用基于 NVIDIA Omniverse 和 OpenUSD 的“仿真优先”方法进行物理AI开发。ABB Robotics 和 JLR 的案例研究表明，该方法在精度提升、周期时间缩短和成本节约方面取得了显著成效。

0 人收藏 0 人点赞

#synthetic-data

OpenSimula —— 在 AfterImage 中开源实现 Simula 风格机制设计的合成数据方案 [P]

Reddit r/MachineLearning ↗ · 2026-04-23

OpenSimula 是 Simula 机制设计范式的开源 Python 实现，用于可控合成数据生成，现已集成进 AfterImage 数据集工具。

0 人收藏 0 人点赞

#synthetic-data

# 超越静态基准：基于角色模拟合成有害内容以实现鲁棒性评估 Source: [https://arxiv.org/html/2604.17020](https://arxiv.org/html/2604.17020) Huije Lee Jisu Shin Hoyun Song Changgeon Ko Jong C\. Park Korea Advanced Institute of Science and Technology \(KAIST\) \{huijelee,jisu\.shin,hysong,pencaty,jongpark\}@kaist\.ac\.kr ###### Abstract 面向有害内容检测的静态基准在可扩展性与多样性方面存在局限，且可能受...

0 人收藏 0 人点赞

#synthetic-data

如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据

Hugging Face Blog ↗ · 2026-04-21 缓存

# 如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据来源：[https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas](https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas) [返回文章列表](https://huggingface.co/blog) - [韩国专属数据集](https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#a-sovereign-dataset-for-south-korea) - [为何这对自主智能体至关重要](https://

0 人收藏 0 人点赞

#synthetic-data

LACE: 用于跨线程探索的格子注意力机制

arXiv cs.AI ↗ · 2026-04-20 缓存

LACE 引入了一种格子注意力机制，使LLM中的并发推理路径能够在推理过程中共享中间结果并相互纠正错误，相比标准的独立并行采样，推理准确度提高了7个多百分点。

0 人收藏 0 人点赞

synthetic-data

提交意见反馈