activation-outliers

#activation-outliers

Dominant-Layer ZO: A Single Layer Dominates Zeroth-Order Fine-Tuning of LLMs

arXiv cs.LG ↗ · 2026-06-05 Cached

This paper reveals that zeroth-order fine-tuning of LLMs is dominated by a single decoding layer, which can be identified by activation outliers, and fine-tuning only that layer matches or exceeds full-model fine-tuning with up to 4.52x speedup.

0 favorites 0 likes

#activation-outliers

Theory-optimal Quantization Based on Flatness

arXiv cs.LG ↗ · 2026-05-20 Cached

Introduces Flatness metric and Bidirectional Diagonal Quantization (BDQ) for post-training quantization of large language models, achieving near-lossless 4-bit weight and activation quantization and substantial improvements at extreme low-bit settings.

0 favorites 0 likes

activation-outliers

Dominant-Layer ZO: A Single Layer Dominates Zeroth-Order Fine-Tuning of LLMs

Theory-optimal Quantization Based on Flatness

Submit Feedback