data-synthesis

#data-synthesis

Infinity-Parser2 技术报告

arXiv cs.AI ↗ · 2026-07-10 缓存

Infinity-Parser2 技术报告介绍了一个用于端到端文档解析的大型多模态模型，该模型具有可扩展的数据合成流水线及多任务强化学习能力。它在多项基准测试中取得了领先结果，同步发布了开源模型变体及一个包含500万样本的双语语料库。

0 人收藏 0 人点赞

#data-synthesis

Goku：百万规模通用数据集与指令驱动视频编辑基准

Hugging Face Daily Papers ↗ · 2026-06-30 缓存

本文介绍了Goku，一个百万规模的指令驱动视频编辑数据集与基准，支持多任务和结构性操作。配套的模型Goku-Edit在指令遵循方面比开源模型提升了高达8%。

0 人收藏 0 人点赞

#data-synthesis

RODS：面向多轮工具使用智能体的奖励驱动在线数据合成方法

arXiv cs.AI ↗ · 2026-06-18 缓存

本文介绍了RODS，一种奖励驱动的在线数据合成方法，该方法解决了多轮工具使用智能体训练中静态数据集信息样本耗尽的问题。它在显著减少轨迹数量的情况下，达到了与更大规模离线流水线相当的性能。

0 人收藏 0 人点赞

#data-synthesis

Edu-Theater: 一种数据高效的智能体框架，通过阶段式点名实现可扩展的学习者行为模拟

arXiv cs.LG ↗ · 2026-06-16 缓存

Edu-Theater是一种数据高效的智能体框架，利用基于LLM的生成式智能体模拟教育场景中的学习者行为。它采用了一种群体感知的点名范式，以更少的数据和计算资源推断学习者状态，实现了更高的模拟精度。

0 人收藏 0 人点赞

#data-synthesis

Geometry-Aware Tabular Diffusion

arXiv cs.LG ↗ · 2026-06-03 缓存

介绍了Geometry-Aware Tabular Diffusion（GATD），该方法通过显式的成对几何特征增强表格扩散去噪器。在十个基准测试上取得了最先进的性能，同时使用的参数显著更少。

0 人收藏 0 人点赞

#data-synthesis

通过最小充分表示学习实现的大语言模型领域特定数据合成

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

DOMINO 是一个新颖的框架，它从参考示例中学习最小充分的领域表示，为LLMs合成领域特定数据，从而在不要求显式领域描述的情况下提升代码基准性能。

0 人收藏 0 人点赞

#data-synthesis

面向低资源开源Text-to-SQL模型的知识蒸馏

arXiv cs.CL ↗ · 2026-05-25 缓存

本文提出了一种知识感知的Text-to-SQL框架，利用知识蒸馏在低资源环境下通过构建任务特定的知识库并生成合成训练数据来提升性能。在七个基准上的实验表明，该方法带来了显著的改进，尤其是对于开源模型。

0 人收藏 0 人点赞

#data-synthesis

Terminal-World: 通过智能体技能扩展终端代理环境

arXiv cs.CL ↗ · 2026-05-21 缓存

Terminal-World 引入了一个全自动流水线，利用智能体技能为终端代理合成高质量的训练数据，使得模型仅使用 1.2% 的训练数据就能超越基线。该方法从技能原语中共同推导出任务指令、环境和教师轨迹。

0 人收藏 0 人点赞

#data-synthesis

解释是否必要且充分？调优LLM用于可解释的虚假信息检测

arXiv cs.CL ↗ · 2026-05-20 缓存

本文提出了一种专门用于可解释虚假信息检测的LLM微调流水线，并介绍了一种数据合成方法LonsRex，用于生成必要且充分的解释，解决了仅基于标签正确性进行简单过滤的局限性。

0 人收藏 0 人点赞

#data-synthesis

Uni-Edit：智能编辑是统一模型调优的通用任务

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

Uni-Edit提出使用智能图像编辑作为单一通用任务，以同时提升统一多模态模型的理解、生成和编辑能力，并配备自动化数据合成流程生成复杂的编辑指令。

0 人收藏 0 人点赞

#data-synthesis

FrontierSmith: 大规模合成开放式编程问题

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

FrontierSmith 自动从封闭式任务中生成多样化的开放式编程问题，通过增强的智能体交互和训练数据合成，提升 LLM 在基准测试中的编码性能。

0 人收藏 0 人点赞

#data-synthesis

覆盖计算机使用的人类动作空间：数据合成与基准测试

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文介绍了CUActSpot，一个用于评估计算机使用代理的多模态基准测试，以及一个基于渲染器的数据合成流程。提出的Phi-Ground-Any-4B模型在32B参数以下的开源模型中表现最佳。

0 人收藏 0 人点赞

#data-synthesis

CoEvolve：通过智能体-数据互进化训练LLM智能体

arXiv cs.CL ↗ · 2026-04-20 缓存

CoEvolve提出了一个智能体-数据互进化框架，通过闭环、交互驱动的学习来训练LLM智能体，同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成，在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进（绝对收益15-19%）。

0 人收藏 0 人点赞

#data-synthesis

面向指令遵循信息检索的双视角训练

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

一种基于极性反转的双视角数据合成方法，在 FollowIR 基准上将指令遵循检索性能提升 45%。

0 人收藏 0 人点赞

#data-synthesis

WebShaper：基于信息搜寻形式化的代理式数据合成

Papers with Code Trending ↗ · 2025-07-20 缓存

WebShaper 是一个形式化驱动的框架，利用集合论和知识投影（Knowledge Projections）合成信息搜寻数据集，在 GAIA 和 WebWalkerQA 基准测试中，其开源代理达到了最先进的性能。

0 人收藏 0 人点赞

data-synthesis

提交意见反馈