optimization

#optimization

kv-cache : 避免kv cells复制 by ggerganov · Pull Request #24277 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-08 缓存

ggerganov的此pull request优化了llama.cpp中的kv-cache，以避免不必要的kv cells复制，从而提升推理性能。这是对开源LLM推理库llama.cpp的一个贡献。

0 人收藏 0 人点赞

#optimization

@steeve：我们更快了（我知道我知道）

X AI KOLs Following ↗ · 2026-06-08 缓存

Steeve Morin 报告称，经过5天的工作，他的实现速度现已与llama.cpp相差不到10%，达到每秒64个token对70个token，还需继续优化。

0 人收藏 0 人点赞

#optimization

通过预测梯度催化剂加速多目标贝叶斯优化

arXiv cs.LG ↗ · 2026-06-08 缓存

本文介绍了一种通用加速机制，用于多目标贝叶斯优化，该机制利用高斯过程预测梯度作为辅助信号来增强现有的采集函数，从而在有限的评估预算下更快地收敛到全局帕累托集。

0 人收藏 0 人点赞

#optimization

Flatland：大步长梯度下降的冒险

arXiv cs.LG ↗ · 2026-06-08 缓存

本文探讨了在非L-光滑目标上梯度下降收敛的最大步长这一开放问题，引入了在稳定性边缘运行且能够全局最小化尖锐度的自适应方法。

0 人收藏 0 人点赞

#optimization

深度表示学习的原理与实践：或记忆的数学理论

arXiv cs.LG ↗ · 2026-06-08 缓存

本书提出了深度表示学习的数学理论，旨在利用优化和信息论揭开大型深度网络内部机制的神秘面纱，使架构设计成为线性代数和微积分的问题。

0 人收藏 0 人点赞

#optimization

基于QUBO与混合量子算法的铁路短期集中发车场景下出发顺序与区段轨道分配协同优化

arXiv cs.AI ↗ · 2026-06-08 缓存

本文提出了一种基于QUBO的模型，用于协调铁路短期集中发车场景下的出发顺序与轨道分配，并通过仿真和混合量子算法进行评估。结果表明，在动态条件下，量子增强方法降低了成本和延误。

0 人收藏 0 人点赞

#optimization

多巴胺榨取

Hacker News Top ↗ · 2026-06-08 缓存

文章创造了'多巴胺榨取'这一术语，描述将过量资源投入随意活动中以提取最大多巴胺，忽视长期危害的现象。它批判了数字时代在线文化、爱好和关系的商品化。

0 人收藏 0 人点赞

#optimization

Linear 为何如此快速？技术剖析

Hacker News Top ↗ · 2026-06-07 缓存

本文对项目管理工具 Linear 如何实现快速性能进行了技术剖析，通过使用浏览器端数据库（IndexedDB）、本地优先变更和同步引擎，消除了用户交互中的网络延迟。

0 人收藏 0 人点赞

#optimization

超越 fork() + exec()

Lobsters Hottest ↗ · 2026-06-07 缓存

一项向Linux内核添加spawn模板的提案，旨在通过缓存可执行文件信息来优化fork+exec模式，不过当前的补丁集不太可能被原样接受。

0 人收藏 0 人点赞

#optimization

在dsymutil中采用并行DWARF链接器

Hacker News Top ↗ · 2026-06-06 缓存

苹果的dsymutil工具用于将DWARF调试信息链接到自包含的捆绑包中，现在正在采用并行DWARF链接器来解决类型去重中的单线程瓶颈，尽管由于输出并非二进制完全相同而在验证方面面临挑战。

0 人收藏 0 人点赞

#optimization

人生苦短，别用慢终端

Lobsters Hottest ↗ · 2026-06-06 缓存

本文详细介绍了通过避免框架、缓存补全以及懒加载工具来加速终端启动的实用技巧，实现了30毫秒的shell启动。

0 人收藏 0 人点赞

#optimization

在搭载RTX 4060（8GB）的笔记本电脑上运行Qwen3.6-35B-A3B——哪些有效、哪些无效以及一个令人意外的推测解码结果

Reddit r/LocalLLaMA ↗ · 2026-06-05

详细记录了在8GB笔记本GPU上运行Qwen3.6-35B-A3B MoE模型的经历，涵盖有效优化（如--no-mmap和VRAM余量）、意料之外的发现（推测解码相比基准测试提升26%的速度）以及Windows和CPU瓶颈的陷阱。

0 人收藏 0 人点赞

#optimization

旋转再探：在循环分解中避免计算最大公约数

The Old New Thing (Raymond Chen) ↗ · 2026-06-05 缓存

本文介绍了一种技术，在std::rotate的循环分解中避免计算最大公约数，该技术用于OpenJDK的Collections.rotate方法。它提供了一个C++实现，通过跟踪已旋转元素的数量来确定所有循环何时完成。

0 人收藏 0 人点赞

#optimization

Qwen 3.5 122B MoE OC 在单张 3090 上以 35 t/s 运行——完整本地堆栈解析

Reddit r/openclaw ↗ · 2026-06-05

在单张 RTX 3090 上使用定制版 llama.cpp（ik_llama.cpp）以 35 t/s 运行 Qwen 3.5 122B MoE 的详细解析，其中采用了融合 MoE 操作和专家层卸载到 CPU 内存的技术，性能显著优于原版 llama.cpp MTP。

0 人收藏 0 人点赞

#optimization

Dominant-Layer ZO：单一层主导LLMs的零阶微调

arXiv cs.LG ↗ · 2026-06-05 缓存

本文揭示了LLM的零阶微调主要由单个解码层主导，该层可通过激活异常值识别，并且仅微调该层即可达到或超越全模型微调的效果，同时带来高达4.52倍的加速。

0 人收藏 0 人点赞

#optimization

高阶光滑非凸优化中尖锐的一阶下界

arXiv cs.LG ↗ · 2026-06-05 缓存

本文证明了在高阶光滑非凸优化中寻找ε-稳定点的无维数尖锐一阶下界，解决了Hessian-Lipschitz和三阶光滑情况下的公开问题。

0 人收藏 0 人点赞

#optimization

DP-MacAdam：具有自适应裁剪和自适应动量的差分隐私机制

arXiv cs.LG ↗ · 2026-06-05 缓存

DP-MacAdam 结合了自适应裁剪和自适应动量来改进差分隐私随机梯度下降，无需手动调整裁剪阈值即可获得更好的模型效用。

0 人收藏 0 人点赞

#optimization

大步长梯度下降恢复多路径深度线性网络中的对称性

arXiv cs.LG ↗ · 2026-06-05 缓存

本文证明，使用大步长的离散梯度下降能够恢复多路径深度线性网络中的对称性，这与梯度流所预测的对称性破缺相反，并导致跨路径的信号重新平衡。作者从理论上证明，平衡解比稀疏解更平坦（锐度更低），且大的学习率驱动网络朝着稳定、平衡的配置发展。

0 人收藏 0 人点赞

#optimization

@sydneyrunkle: 假设智能体 = 模型 + 工具套件。不幸的是，好的模型越来越贵！所以你需要一个出色的工具套件来…

X AI KOLs Following ↗ · 2026-06-04

关于通过改进工具套件组件来优化AI智能体性能的指南，以补偿昂贵的模型成本，重点关注爬山技术。

0 人收藏 0 人点赞

#optimization

@vivekgalatage: Algorithmica的内存组织是一个一直表现出色的资源。

X AI KOLs Timeline ↗ · 2026-06-04 缓存

推荐关于CPU缓存内存组织的Algorithmica资源，该资源提供了对内存内算法的详细实验分析和优化技术。

0 人收藏 0 人点赞

optimization

提交意见反馈