标签
MIT研究人员表明,神经网络训练中的稳定边缘(EoS)不仅仅是一个全局优化现象,而是选择性地在训练分布的子集上重新分配学习,放大某些数据组的进展同时抑制其他组。他们识别出控制这种分配的两个关键条件:梯度与Hessian矩阵最大特征向量的对齐,以及持续非消失的梯度幅度。
阿姆斯特丹大学的研究人员提出了一种基于表格强化学习的地铁网络扩展问题方法,表明该方法在性能上与深度强化学习相当,同时平均减少18倍的训练回合数和12倍的碳排放量。该方法还融入了社会公平标准,并在西安和阿姆斯特丹的真实地铁网络上进行了评估。
本文针对耦合梯度下降中的块三角Jacobian矩阵建立了精确的伪谱理论,证明了Kreiss常数界并给出了迭代复杂度结果。研究揭示了与双层优化、双时间尺度随机逼近以及GAN训练相关的非渐近、实例相关的瞬态放大现象。
本文提出了"约束增强物理搜索"原理:在探索过程中,时间相关性应与约束诱导的更新动力学中的空间相关性相匹配,并通过拔河赌博机模型加以验证。作者表明,高效搜索并非源于最大随机性,而是源于将时间相关性与将反馈转化为证据的物理更新尺度相匹配。
北京航空航天大学与百度的研究人员提出"约束注入"方法——一种用于基于 LLM 的优化建模的双重验证机制,能够检测超出目标等价性范围的虚假约束或遗漏约束。他们开发了 VRPCoder,这是一个 80 亿参数的模型,专门用于将自然语言描述的车辆路径问题转化为 Gurobi 脚本,平均 Pass@1 达到 93%,大幅超越 Claude Sonnet 及此前的运筹学 LLM。
llama.cpp 发布 b9495 版本,针对 Qwen3.6/3.5-MTP(多令牌预测)进行了优化,并请用户分享他们的基准测试结果及完整的命令详情。
Manticore Search引入了针对基于HNSW的KNN向量搜索的提前终止机制,对于较大的k值,可减少多达80%的距离计算,同时保持精度在全搜索的2-4%以内。
用户感谢GEPA工具,强调其为LLM程序提供了自然的工作流、快速的迭代速度,以及利用数据-derived priors偏置优化的能力。
该论文介绍了GAMBLe,一个将AI驱动研究系统分解为生成器、评估器、发现机制和预算的框架,揭示了组件交互如何塑造优化景观。在NP困难问题上的实验表明,没有普遍最佳的配置,强调了谨慎选择组件的必要性。
介绍了一种用于对称非负矩阵分解的非单调梯度算法SNMPBB,该算法相比现有方法实现了显著加速,并扩展至图聚类和低秩近似。
GRZO是一种新颖的零阶优化方法,用于微调大语言模型,通过群组相对归一化降低方差,与MeZO相比实现了更高的准确性和内存效率。
本文提出了神经网络损失景观中曲率指数α的精确分解,解释了为何该指数在不同层类型间存在差异。引入了谱对齐分解,并导出了一个谱传递恒等式,连接曲率、梯度秩衰减和Hessian指数,该恒等式已在多种架构和数据集上得到验证。
AutoLab提出了一个基准,用于评估前沿模型在多个领域中的长周期迭代优化能力。结果表明,持续性和时间意识比初始性能更为关键,其中claude-opus-4.6展现了强大的能力,而许多模型过早终止。
本文分析了混合批处理与独占批处理在LLM推理中的权衡,表明最优选择取决于GPU内存带宽。提出了一种基于阈值的混合调度器,可在两种方法间动态切换,在带宽受限的GPU上实现高达41.9%的吞吐量提升。
立场论文:主张为MILP决策引擎增加一个求解后鲁棒性层,形式化扰动下的可行邻域和解的平滑性,并呼吁采用经过认证的内部近似和对抗鲁棒性裕度。
本文推导了两层和三层线性神经网络在一步和两步梯度下降后梯度和测试损失的精确闭式表达式,刻画了最优学习率选择,并揭示了一个独特的早期训练阶段:在该阶段中,初始时不等层学习率是最优的。
提出FoLoRA,一种遗忘感知优化框架,用于微调基础模型,通过广义瑞利商优化平衡任务效用和遗忘惩罚,更好地保留非目标能力。
QBE 1.3 是一个重要的编译器后端版本,新增了 7000 行代码,引入了一种新的 IL 匹配算法,针对 coremark 基准测试进行了优化(性能从 gcc -O2 的 40% 提升到超过 63%),支持 Windows ABI 和位置无关代码生成。