harmful-continuation

#harmful-continuation

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

arXiv cs.AI ↗ · 6d ago Cached

This paper investigates a harmful phenomenon in long chain-of-thought (CoT) training traces where post-conclusion continuation reduces training utility, and proposes a diagnostic method called HarmfulContinuationCut (HCC) to detect such harmful continuations.

0 favorites 0 likes

#harmful-continuation

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Hugging Face Daily Papers ↗ · 2026-05-28 Cached

This paper identifies harmful continuations in answer-correct long chain-of-thought training traces for LLM SFT, characterized by uncertainty-geometry mismatches, and proposes a lightweight boundary proxy method to remove them.

0 favorites 0 likes

harmful-continuation

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Submit Feedback