data-augmentation

#data-augmentation

DataArc-SynData-Toolkit: A Unified Closed-Loop Framework for Multi-Path, Multimodal, and Multilingual Data Synthesis

arXiv cs.LG ↗ · 2d ago Cached

The article introduces DataArc-SynData-Toolkit, an open-source framework designed to simplify multi-path, multimodal, and multilingual synthetic data generation. It aims to lower technical barriers and improve usability for training large language models through a unified, configuration-driven pipeline.

0 favorites 0 likes

#data-augmentation

GSM-SEM: Benchmark and Framework for Generating Semantically Variant Augmentations

arXiv cs.CL ↗ · 3d ago Cached

This paper introduces GSM-SEM, a framework for generating semantically diverse benchmark variants to mitigate memorization in mathematical reasoning evaluations. The authors demonstrate that this approach reveals significant performance drops in current SOTA LLMs compared to static benchmarks.

0 favorites 0 likes

#data-augmentation

When Informal Text Breaks NLI: Tokenization Failure, Distribution Shift, and Targeted Mitigations

arXiv cs.CL ↗ · 2026-04-21 Cached

This paper investigates how informal text (slang, emoji, Gen-Z filler tokens) degrades NLI accuracy in ELECTRA-small and RoBERTa-large models, identifying two distinct failure mechanisms—tokenization failure (emoji mapped to [UNK]) and distribution shift (out-of-domain noise tokens)—and proposes targeted mitigations that recover accuracy without harming clean-text performance.

0 favorites 0 likes

#data-augmentation

Efficient training of language models to fill in the middle

OpenAI Blog ↗ · 2022-07-28 Cached

OpenAI presents a simple data augmentation technique that enables autoregressive language models to perform fill-in-the-middle (FIM) text generation without harming left-to-right performance, with extensive ablations and best practices provided for training such models.

0 favorites 0 likes

data-augmentation

DataArc-SynData-Toolkit: A Unified Closed-Loop Framework for Multi-Path, Multimodal, and Multilingual Data Synthesis

GSM-SEM: Benchmark and Framework for Generating Semantically Variant Augmentations

When Informal Text Breaks NLI: Tokenization Failure, Distribution Shift, and Targeted Mitigations

Efficient training of language models to fill in the middle

Submit Feedback