标签
关于 llama.cpp 中结合 Gemma 4 模型的 MTP 投机解码的详细技术探索,表明辅助模型的选择和量化对加速效果有显著影响,且并非所有“同名”的辅助模型表现相同。
本文揭示了LoRA优化中缩放因子α比学习率更具影响力,并提出了LoRA-α框架,通过将α恢复到其理论原则区间,提升了性能并简化了超参数搜索。
Arbor 引入了结构化树搜索作为自主代理的认知层,通过制衡多代理架构,实现多日、全栈 LLM 推理优化,相比供应商基线,吞吐量-延迟提升高达 193%。
本文介绍了NaturalFlow,一种流畅性感知的优化框架,它通过利用模型内部信号减少同时语音翻译中的干扰性停顿,在低延迟和自然语音流畅之间取得平衡。
这篇博客文章提出一个使用整数线性规划的算法来计算语言模型的最优分词器,并将其与解决旅行商问题相类比。文中指出,虽然结果在理论上很有趣,但实际的分词器已经接近最优,并且该方法可能不具备良好的泛化能力。
本文揭示了,即使在条件良好的设置下,使用非二次正则化项的 Mirror Descent 比 Gradient Descent 对初始化敏感得多(指数级),这对强化学习和LLM后训练中的可重复性具有重要意义。
SwiftCTS是一个物理信息代理框架,利用梯度提升集成和少样本校准,快速预测并帕累托优化未见设计上的时钟树指标(功耗、线长、时钟偏移),以极少的训练数据实现高精度。
介绍 Compatibility-Aware Dynamic Fine-Tuning (CADFT),这是 Dynamic Fine-Tuning 的扩展,在 LLM 监督微调中控制样本级优化方差,从而提高稳定性和泛化能力。
Fulcrum Research 提出了逆评分优化(IRO),这是一个用于研究长期智能体行为的测试平台,其中智能体必须优化黑箱法官的偏好。该方法实现了平滑扩展和丰富的行为分析,实验表明,Fable 5 和 Opus 4.6 等前沿模型具有不同的扩展特性。
Browser Use Beta 在困难的内部网络代理基准测试中取得了先进的结果,使用了 Fable 进行优化和分析。
本文分析了在线策略蒸馏(OPD),发现OPD更新是稀疏的,分布在各个层且以FFN为主,并且保留了与密集参数重写不同的几何特性。这种稀疏结构在操作上有用,但由于梯度尺度异质性,诱导稀疏性的SGD优化器表现不如AdamW。
一个针对 llama.cpp 的拉取请求,移除了多令牌预测 (MTP) 中的填充和多重设备到设备拷贝,提高了 GPU 上的性能。
本文提出了可训练的平滑旋转变换,结合分位数鲁棒缩放和基于梯度的优化,以改进LLM的训练后量化,在LLaMA-3.2-1B的W4A4量化下实现了显著的误差降低。
本文介绍Sim2Schedule,一种由模拟器引导的LLM框架,用于自主露天矿调度。该框架在计算时间线性扩展的情况下,能达到MILP最优净现值的94%-99%,且无需微调即可零样本运行。
提出并比较了两种在不确定性下进行鲁棒微电网容量配置和功率调度的数学公式,采用局部缩减算法,在蒙特卡洛模拟中实现了高可行性率。
本文形式化了在独立成本与选择性模型下顺序过滤管道中排序过滤器的问题,证明了按成本与拒绝概率之比的升序排序是最优的。蒙特卡洛模拟表明,这种排序在期望值上以及在整个结果分布中均优于常见的启发式方法。
提升了k-quants的预填充速度,并重构了llama.cpp WebGPU后端中Q4/Q5/Q8及k-quants的矩阵乘法。
哈佛大学研究人员提出 AutoScientists,一个没有中央协调器、能够形成自组织科学团队的多智能体系统,在 BioML-Bench 和优化任务上取得了强劲成果。