repetition

#repetition

Low Perplexity is Repetition: A One-Dimensional Self-Conditioning Attractor in Continuous Diffusion LMs

arXiv cs.CL ↗ · 3d ago Cached

This paper reveals that the low generative perplexity (Gen-PPL) reported by continuous diffusion language models like ELF is misleading, as it rewards repetition; the authors identify a one-dimensional attractor in the self-conditioning loop as the cause and propose ACE, a simple fix that subtracts this direction to reduce repetition without sacrificing quality.

0 favorites 0 likes

#repetition

Scaling Laws for Mixture Pretraining Under Data Constraints

arXiv cs.LG ↗ · 2026-05-14 Cached

This paper studies the trade-off between scarce target data and abundant generic data in mixture pretraining, finding that repetition is a key driver of performance and that mixture training tolerates 15-20 repetitions of target data. It introduces a repetition-aware scaling law to optimize mixture configurations under data constraints.

0 favorites 0 likes

repetition

Low Perplexity is Repetition: A One-Dimensional Self-Conditioning Attractor in Continuous Diffusion LMs

Scaling Laws for Mixture Pretraining Under Data Constraints

Submit Feedback