标签
西安交通大学研究团队提出DCM-Agent,一种无需训练的LLM智能体,通过将过往优化方案组织成双聚类结构来消解结构歧义,在多个基准测试中将准确率提升11–21%。
Raymond Chen 探讨了 x86 编译器为何普遍使用“xor eax,eax”而非“sub eax,eax”来清零寄存器,原因并非技术优越,而是历史惯性和略安全的标志位行为。
作者提出一种二维早退方法,同时裁剪层与输入句子,在 Llama 3.1/3.2、Gemma 与 Qwen 模型的情感任务上额外获得 1.4–2.3 倍加速。
重磅开源版本:RLM 优化、优化链串联、LiteLLM 解耦启动,迎来 24 位新贡献者。
本文是一篇深度技术分析,详细阐述了如何针对动态类型语言 Zef 优化基于抽象语法树(AST)遍历的解释器。通过改进值的内部表示、引入内联缓存、优化对象模型及其他多项加速技术,最终实现了 16 倍的运行速度提升,使 Zef 的性能达到了可与 Lua、QuickJS 和 CPython 相媲美的高水准。
K2.6在Mac本地成功部署Qwen3.5-0.8B模型,使用Zig语言实现推理优化,经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s,比LM Studio快20%。
Developer built a Zig-based LLM inference engine from scratch on Mac in 12h, boosting Qwen 3.5 0.8B speed from 15 to 193 tok/s.
技术解析:对比 PyTorch 默认的 autograd 与 UnslothAI 使用 OpenAI Triton 语言编写的自定义反向传播内核,以实现更高效的 LLM 微调。
Ahmad Osman 分享了一张速查表,提前拆解 LLM 推理引擎栈及常见负载瓶颈,为即将发布的深度文章预热。
本文提出了序列蒙特卡洛推测解码(SMC-SD),一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法,在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速,相比自回归解码实现5.2倍加速。
UDM-GRPO 为均匀离散扩散模型提出了一种稳定的强化学习训练框架,将 GenEval 准确率从 69% 提升至 96%,OCR 基准准确率从 8% 提升至 57%。
本文由 Saints Row: The Third Remastered 的一位开发者撰写,详细讲解了包含距离剔除、背面剔除和视锥体剔除在内的现代渲染剔除技术,并为致力于实时图形优化的游戏开发人员提供了宝贵的实践经验。
vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。
一篇介绍Three-Phase Transformer(3PT)的研究论文,该模型将特斯拉的多相几何应用于Transformer架构,将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数(0.00124%的开销)实现了7.2%的困惑度提升,以及1.93倍的收敛加速。
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。
麻省理工学院教授 Dimitris Bertsimas 荣获第54届 James R. Killian 教职成就奖,并发表演讲,介绍其运筹学与 AI 研究如何切实推动物流、医疗、教育和农业等领域的现实改进。他提出的鲁棒优化方法已带来诸多实际应用价值,例如提升医院患者周转效率以及优化巴拿马运河的船舶调度安排。
本文介绍了Tequila,这是一种针对大语言模型的无陷阱量化方法,通过将陷入死区的权重重新利用为动态偏置,提高了三元量化的准确性和推理速度。
DeepMind发布AlphaEvolve,这是一个由Gemini驱动的AI智能体,它将大型语言模型与自动评估器相结合,能够发现并优化用于数学和实际计算问题的算法,提高数据中心、芯片设计和AI训练的效率。
OpenAI 研究人员通过实验研究了奖励模型过度优化对性能的影响,建立了标度律来说明代理奖励优化与真实性能之间的关系如何随优化方法变化,并与模型规模成可预测的关系。
OpenAI 的研究通过最佳 N 采样(best-of-n sampling)对古德哈特定律进行了形式化分析,提供了高效的估计器,用于衡量代理目标与实际目标的匹配程度,并通过 KL 散度量化优化努力。