标签
介绍了Geometry-Aware Tabular Diffusion(GATD),该方法通过显式的成对几何特征增强表格扩散去噪器。在十个基准测试上取得了最先进的性能,同时使用的参数显著更少。
DOMINO 是一个新颖的框架,它从参考示例中学习最小充分的领域表示,为LLMs合成领域特定数据,从而在不要求显式领域描述的情况下提升代码基准性能。
本文提出了一种知识感知的Text-to-SQL框架,利用知识蒸馏在低资源环境下通过构建任务特定的知识库并生成合成训练数据来提升性能。在七个基准上的实验表明,该方法带来了显著的改进,尤其是对于开源模型。
Terminal-World 引入了一个全自动流水线,利用智能体技能为终端代理合成高质量的训练数据,使得模型仅使用 1.2% 的训练数据就能超越基线。该方法从技能原语中共同推导出任务指令、环境和教师轨迹。
本文提出了一种专门用于可解释虚假信息检测的LLM微调流水线,并介绍了一种数据合成方法LonsRex,用于生成必要且充分的解释,解决了仅基于标签正确性进行简单过滤的局限性。
Uni-Edit提出使用智能图像编辑作为单一通用任务,以同时提升统一多模态模型的理解、生成和编辑能力,并配备自动化数据合成流程生成复杂的编辑指令。
FrontierSmith 自动从封闭式任务中生成多样化的开放式编程问题,通过增强的智能体交互和训练数据合成,提升 LLM 在基准测试中的编码性能。
本文介绍了CUActSpot,一个用于评估计算机使用代理的多模态基准测试,以及一个基于渲染器的数据合成流程。提出的Phi-Ground-Any-4B模型在32B参数以下的开源模型中表现最佳。
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
WebShaper 是一个形式化驱动的框架,利用集合论和知识投影(Knowledge Projections)合成信息搜寻数据集,在 GAIA 和 WebWalkerQA 基准测试中,其开源代理达到了最先进的性能。