bilevel-optimization

#bilevel-optimization

FastMix: Fast Data Mixture Optimization via Gradient Descent

arXiv cs.LG ↗ · 4d ago Cached

FastMix is a novel framework that automates data mixture discovery for training large models using a single proxy model and bilevel optimization, achieving state-of-the-art performance with significant efficiency gains.

0 favorites 0 likes

#bilevel-optimization

Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent

arXiv cs.LG ↗ · 2026-06-04 Cached

This paper develops a sharp pseudospectral theory for block-triangular Jacobians in coupled gradient descent, proving Kreiss-constant bounds and establishing iteration complexity results. The work exposes non-asymptotic, instance-dependent transient amplification phenomena relevant to bilevel optimization, two-time-scale stochastic approximation, and GAN training.

0 favorites 0 likes

#bilevel-optimization

IGT-OMD: Implicit Gradient Transport for Decision-Focused Learning under Delayed Feedback

arXiv cs.LG ↗ · 2026-05-14 Cached

This paper identifies 'staleness amplification' in bilevel optimization under delayed feedback and proposes IGT-OMD, which uses Implicit Gradient Transport to achieve sublinear regret and improve decision loss on benchmarks like Warcraft shortest-path and LQR.

0 favorites 0 likes

#bilevel-optimization

FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning

Hugging Face Daily Papers ↗ · 2026-05-11 Cached

The paper introduces FocuSFT, a bilevel optimization framework that enhances long-context language model performance by addressing attention dilution through parametric memory. It demonstrates significant improvements in accuracy and context engagement on benchmarks like BABILong and RULER.

0 favorites 0 likes

bilevel-optimization

FastMix: Fast Data Mixture Optimization via Gradient Descent

Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent

IGT-OMD: Implicit Gradient Transport for Decision-Focused Learning under Delayed Feedback

FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning

Submit Feedback