标签
PopuLoRA 提出了一种基于种群的非对称自我博弈框架,用于 LLM 的 RLVR 后训练。在该框架中,教师和学生 LoRA 适配器协同进化,生成日益复杂的问题,从而克服了单智能体自我博弈的自我校准限制。