optimization

#optimization

并非所有 MTP 辅助模型都生而平等

Reddit r/LocalLLaMA ↗ · 2026-06-12

关于 llama.cpp 中结合 Gemma 4 模型的 MTP 投机解码的详细技术探索，表明辅助模型的选择和量化对加速效果有显著影响，且并非所有“同名”的辅助模型表现相同。

0 人收藏 0 人点赞

#optimization

EAGLE3 已登陆 llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-12 缓存

EAGLE3 是一种推测性解码方法，现已集成到 llama.cpp 中，能够实现更快的推理。

0 人收藏 0 人点赞

#optimization

LoRA优化中缩放因子的潜藏威力

arXiv cs.AI ↗ · 2026-06-12 缓存

本文揭示了LoRA优化中缩放因子α比学习率更具影响力，并提出了LoRA-α框架，通过将α恢复到其理论原则区间，提升了性能并简化了超参数搜索。

0 人收藏 0 人点赞

#optimization

Arbor：树搜索作为自主代理的认知层

arXiv cs.AI ↗ · 2026-06-12 缓存

Arbor 引入了结构化树搜索作为自主代理的认知层，通过制衡多代理架构，实现多日、全栈 LLM 推理优化，相比供应商基线，吞吐量-延迟提升高达 193%。

0 人收藏 0 人点赞

#optimization

NaturalFlow：减少同时语音翻译中干扰性停顿以促进自然语音流畅

arXiv cs.CL ↗ · 2026-06-12 缓存

本文介绍了NaturalFlow，一种流畅性感知的优化框架，它通过利用模型内部信号减少同时语音翻译中的干扰性停顿，在低延迟和自然语音流畅之间取得平衡。

0 人收藏 0 人点赞

#optimization

寻找最优分词器

Hacker News Top ↗ · 2026-06-11 缓存

这篇博客文章提出一个使用整数线性规划的算法来计算语言模型的最优分词器，并将其与解决旅行商问题相类比。文中指出，虽然结果在理论上很有趣，但实际的分词器已经接近最优，并且该方法可能不具备良好的泛化能力。

0 人收藏 0 人点赞

#optimization

Mirror Descent 超越欧几里得稳定性：初始化敏感性的指数级分离

arXiv cs.LG ↗ · 2026-06-11 缓存

本文揭示了，即使在条件良好的设置下，使用非二次正则化项的 Mirror Descent 比 Gradient Descent 对初始化敏感得多（指数级），这对强化学习和LLM后训练中的可重复性具有重要意义。

0 人收藏 0 人点赞

#optimization

SwiftCTS：基于少样本校准的跨设计快速预测与时钟树指标帕累托优化

arXiv cs.LG ↗ · 2026-06-11 缓存

SwiftCTS是一个物理信息代理框架，利用梯度提升集成和少样本校准，快速预测并帕累托优化未见设计上的时钟树指标（功耗、线长、时钟偏移），以极少的训练数据实现高精度。

0 人收藏 0 人点赞

#optimization

面向大型语言模型的 Compatibility-Aware Dynamic Fine-Tuning

arXiv cs.CL ↗ · 2026-06-11 缓存

介绍 Compatibility-Aware Dynamic Fine-Tuning (CADFT)，这是 Dynamic Fine-Tuning 的扩展，在 LLM 监督微调中控制样本级优化方差，从而提高稳定性和泛化能力。

0 人收藏 0 人点赞

#optimization

逆评分优化：智能体科学的测试平台

Hacker News Top ↗ · 2026-06-11 缓存

Fulcrum Research 提出了逆评分优化（IRO），这是一个用于研究长期智能体行为的测试平台，其中智能体必须优化黑箱法官的偏好。该方法实现了平滑扩展和丰富的行为分析，实验表明，Fable 5 和 Opus 4.6 等前沿模型具有不同的扩展特性。

0 人收藏 0 人点赞

#optimization

@gregpr07: Browser Use Beta 刚刚在我们最难的内部网络代理基准测试中实现了 SOTA。Fable 在优化方面确实令人惊叹…

X AI KOLs Following ↗ · 2026-06-11 缓存

Browser Use Beta 在困难的内部网络代理基准测试中取得了先进的结果，使用了 Fable 进行优化和分析。

0 人收藏 0 人点赞

#optimization

密集监督，稀疏更新：论在线策略蒸馏的稀疏性与几何特性

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

本文分析了在线策略蒸馏（OPD），发现OPD更新是稀疏的，分布在各个层且以FFN为主，并且保留了与密集参数重写不同的几何特性。这种稀疏结构在操作上有用，但由于梯度尺度异质性，诱导稀疏性的SGD优化器表现不如AdamW。

0 人收藏 0 人点赞

#optimization

移除MTP中的填充和多重D2D拷贝 - 由gaugarg-nv提交 · 拉取请求#24086 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-10 缓存

一个针对 llama.cpp 的拉取请求，移除了多令牌预测 (MTP) 中的填充和多重设备到设备拷贝，提高了 GPU 上的性能。

0 人收藏 0 人点赞

#optimization

可训练的平滑旋转变换与学习到的通道缩放用于LLM量化

arXiv cs.LG ↗ · 2026-06-10 缓存

本文提出了可训练的平滑旋转变换，结合分位数鲁棒缩放和基于梯度的优化，以改进LLM的训练后量化，在LLaMA-3.2-1B的W4A4量化下实现了显著的误差降低。

0 人收藏 0 人点赞

#optimization

Sim2Schedule：一种模拟器引导的LLM框架，用于自主露天矿调度

arXiv cs.AI ↗ · 2026-06-10 缓存

本文介绍Sim2Schedule，一种由模拟器引导的LLM框架，用于自主露天矿调度。该框架在计算时间线性扩展的情况下，能达到MILP最优净现值的94%-99%，且无需微调即可零样本运行。

0 人收藏 0 人点赞

#optimization

一种基于局部缩减的不确定性下微电网最优控制的高效方法

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

提出并比较了两种在不确定性下进行鲁棒微电网容量配置和功率调度的数学公式，采用局部缩减算法，在蒙特卡洛模拟中实现了高可行性率。

0 人收藏 0 人点赞

#optimization

独立成本与选择性模型下顺序过滤的最优性

arXiv cs.LG ↗ · 2026-06-09 缓存

本文形式化了在独立成本与选择性模型下顺序过滤管道中排序过滤器的问题，证明了按成本与拒绝概率之比的升序排序是最优的。蒙特卡洛模拟表明，这种排序在期望值上以及在整个结果分布中均优于常见的启发式方法。

0 人收藏 0 人点赞

#optimization

ggml-webgpu: 提升k-quants的预填充速度并重构Q4/Q5/Q8及k-quants的矩阵乘法 by yomaytk · Pull Request #24225 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-09 缓存

提升了k-quants的预填充速度，并重构了llama.cpp WebGPU后端中Q4/Q5/Q8及k-quants的矩阵乘法。

0 人收藏 0 人点赞

#optimization

@TheTuringPost: AutoScientists – 一个由智能体组成的研究实验室 @哈佛大学的研究人员将智能体连接成一个自组织的科学…

X AI KOLs Timeline ↗ · 2026-06-09 缓存

哈佛大学研究人员提出 AutoScientists，一个没有中央协调器、能够形成自组织科学团队的多智能体系统，在 BioML-Bench 和优化任务上取得了强劲成果。

0 人收藏 0 人点赞

#optimization

值编号

Hacker News Top ↗ · 2026-06-08 缓存

本文解释了值编号，一种编译器优化技术，用于识别相同的计算以避免冗余，基于静态单赋值（SSA）形式，并使用哈希合并进行高效比较。

0 人收藏 0 人点赞

optimization

提交意见反馈