optimization

#optimization

双聚类记忆智能体：消解优化问题求解中的多范式歧义

arXiv cs.CL ↗ · 2026-04-23 缓存

西安交通大学研究团队提出DCM-Agent，一种无需训练的LLM智能体，通过将过往优化方案组织成双聚类结构来消解结构歧义，在多个基准测试中将准确率提升11–21%。

0 人收藏 0 人点赞

#optimization

为什么清零寄存器用 XOR 而不用 SUB？

Hacker News Top ↗ · 2026-04-22 缓存

Raymond Chen 探讨了 x86 编译器为何普遍使用“xor eax,eax”而非“sub eax,eax”来清零寄存器，原因并非技术优越，而是历史惯性和略安全的标志位行为。

0 人收藏 0 人点赞

#optimization

大模型推理的二维早退优化

arXiv cs.CL ↗ · 2026-04-22 缓存

作者提出一种二维早退方法，同时裁剪层与输入句子，在 Llama 3.1/3.2、Gemma 与 Qwen 模型的情感任务上额外获得 1.4–2.3 倍加速。

0 人收藏 0 人点赞

#optimization

@dbreunig：大版本发布：RLM 优化、优化链串联、LiteLLM 解耦启动，并有 24 位首次贡献者…

X AI KOLs Following ↗ · 2026-04-21 缓存

重磅开源版本：RLM 优化、优化链串联、LiteLLM 解耦启动，迎来 24 位新贡献者。

0 人收藏 0 人点赞

#optimization

如何构建高性能动态语言解释器

Hacker News Top ↗ · 2026-04-21 缓存

本文是一篇深度技术分析，详细阐述了如何针对动态类型语言 Zef 优化基于抽象语法树（AST）遍历的解释器。通过改进值的内部表示、引入内联缓存、优化对象模型及其他多项加速技术，最终实现了 16 倍的运行速度提升，使 Zef 的性能达到了可与 Lua、QuickJS 和 CPython 相媲美的高水准。

0 人收藏 0 人点赞

#optimization

@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型，通过使用小众 Zig 语言实现并优化模型推理，证明了新模型的泛化能力。经过 4,000 多次工具调用，超过 12 小时的不间断运行，K2.6 模型共迭代了 14 …

X AI KOLs Timeline ↗ · 2026-04-21 缓存

K2.6在Mac本地成功部署Qwen3.5-0.8B模型，使用Zig语言实现推理优化，经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s，比LM Studio快20%。

0 人收藏 0 人点赞

#optimization

@linexjlin: K2.6 花了 12 个小时，在 Mac 上用 zig 语言从 0 写了一个 LLM 推理引擎并，并将 qwen 3.5 0.8B 推理速度由 15 tok/s 优化到了 193.1 tok/s

X AI KOLs Timeline ↗ · 2026-04-20 缓存

Developer built a Zig-based LLM inference engine from scratch on Mac in 12h, boosting Qwen 3.5 0.8B speed from 15 to 193 tok/s.

0 人收藏 0 人点赞

#optimization

@akshay_pachaar：PyTorch Autograd 与 Unsloth Triton 内核对比。UnslothAI 背后的核心工程一直令人印象深刻！它并未……

X AI KOLs Following ↗ · 2026-04-20 缓存

技术解析：对比 PyTorch 默认的 autograd 与 UnslothAI 使用 OpenAI Triton 语言编写的自定义反向传播内核，以实现更高效的 LLM 微调。

0 人收藏 0 人点赞

#optimization

@TheAhmadOsman：LLM 推理引擎栈拆解与负载/瓶颈速查表，来自即将发布的《推理引擎全解》…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

Ahmad Osman 分享了一张速查表，提前拆解 LLM 推理引擎栈及常见负载瓶颈，为即将发布的深度文章预热。

0 人收藏 0 人点赞

#optimization

通过序列蒙特卡洛加速LLM推理

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出了序列蒙特卡洛推测解码（SMC-SD），一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法，在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速，相比自回归解码实现5.2倍加速。

0 人收藏 0 人点赞

#optimization

UDM-GRPO：面向均匀离散扩散模型的稳定高效群体相对策略优化

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

UDM-GRPO 为均匀离散扩散模型提出了一种稳定的强化学习训练框架，将 GenEval 准确率从 69% 提升至 96%，OCR 基准准确率从 8% 提升至 57%。

0 人收藏 0 人点赞

#optimization

现代渲染剔除技术

Hacker News Top ↗ · 2026-04-19 缓存

本文由 Saints Row: The Third Remastered 的一位开发者撰写，详细讲解了包含距离剔除、背面剔除和视锥体剔除在内的现代渲染剔除技术，并为致力于实时图形优化的游戏开发人员提供了宝贵的实践经验。

0 人收藏 0 人点赞

#optimization

vllm-project/vllm v0.19.1

GitHub Releases Watchlist ↗ · 2026-04-18 缓存

vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库，拥有业界领先的吞吐量，支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。

0 人收藏 0 人点赞

#optimization

Three-Phase Transformer

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

一篇介绍Three-Phase Transformer（3PT）的研究论文，该模型将特斯拉的多相几何应用于Transformer架构，将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数（0.00124%的开销）实现了7.2%的困惑度提升，以及1.93倍的收敛加速。

0 人收藏 0 人点赞

#optimization

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

KV Packet 提出了一种免重计算的缓存复用框架，用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性，消除了开销，同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。

0 人收藏 0 人点赞

#optimization

关于算法、生活与学习

MIT News — Artificial Intelligence ↗ · 2026-03-23 缓存

麻省理工学院教授 Dimitris Bertsimas 荣获第54届 James R. Killian 教职成就奖，并发表演讲，介绍其运筹学与 AI 研究如何切实推动物流、医疗、教育和农业等领域的现实改进。他提出的鲁棒优化方法已带来诸多实际应用价值，例如提升医院患者周转效率以及优化巴拿马运河的船舶调度安排。

0 人收藏 0 人点赞

#optimization