factual-reliability

#factual-reliability

Toxic HallucinAItions: Perturbing Prompts and Tracing LLM Circuits

arXiv cs.CL ↗ · 3d ago Cached

This paper investigates how toxic lexical perturbations in prompts reduce the factual accuracy and increase uncertainty of LLMs, and uses attribution-graph analyses to trace internal changes. It finds that increasing toxicity amplifies perturbation-sensitive variant nodes while core reasoning nodes remain invariant.

0 favorites 0 likes

factual-reliability

Toxic HallucinAItions: Perturbing Prompts and Tracing LLM Circuits

Submit Feedback