stochastic-training

#stochastic-training

Stochasticity in Tokenization Improves Robustness

arXiv cs.CL ↗ · 2026-04-20 Cached

This paper demonstrates that training large language models with stochastic tokenization instead of deterministic canonical tokenization significantly improves robustness to adversarial attacks and random perturbations, with improvements shown across pre-training, fine-tuning, and in-context learning without increasing inference costs.

0 favorites 0 likes

stochastic-training

Stochasticity in Tokenization Improves Robustness

Submit Feedback