mitigation-strategies

#mitigation-strategies

A Survey of Toxicity Detection and Mitigation Strategies for Multilingual Language Models

arXiv cs.CL ↗ · 4d ago Cached

This survey synthesizes research on toxicity detection and detoxification for multilingual large language models, cataloging threat models, task formulations, detection approaches, and mitigation strategies, while identifying persistent challenges such as uneven language coverage and culturally contingent definitions of harm.

0 favorites 0 likes

#mitigation-strategies

Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training

arXiv cs.LG ↗ · 2026-05-13 Cached

This paper analyzes spurious correlation learning in preference optimization methods like DPO, identifying mechanisms such as mean spurious bias and causal-spurious leakage. It proposes 'tie training' using equal-utility preference pairs as a mitigation strategy to reduce reliance on spurious features without degrading causal learning.

0 favorites 0 likes

mitigation-strategies

A Survey of Toxicity Detection and Mitigation Strategies for Multilingual Language Models

Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training

Submit Feedback