标签
作者发现同时使用CUDA和Vulkan后端编译llama.cpp是可行的,解码速度提升了约10% tokens/秒。他们计划运行进一步基准测试来评估其优势。
Reflex 团队通过移除生成器开销、内联函数以及实现 Rust 绑定,将其 AI 代码生成检查器中的 Python ast.walk 速度提升了 220 倍。
一篇新的 Nature 论文介绍了 ERA,这是一种通过树搜索迭代编写、运行、评分和改进科学代码的 AI 系统,将 AI for Science 从文本生成推进到代码测试。
一个关于Windows x86仿真器团队的故事:他们遇到一个程序,其初始化循环完全展开了64KB(65,536条指令),于是添加了特殊优化,将其替换为一个紧凑循环。
本调查将基于LLM的优化分为三个范式——直接优化、工具增强优化和工具创建优化——并回顾了它们的性能前沿和局限性。
本文介绍了Spokes,一个基于G-Vendi分数的概率多样化框架,通过联合优化质量和多样性,在FineWeb和DCLM上实现了下游任务性能的显著提升。
本文为指导在深度学习中合理使用不同的 Schatten-p 范数提供了指南,分析了它们在模型正则化和优化方面的理论特性和实际意义。
本文介绍了AdaNAGED,一种结合零阶优化、无参数自适应和非欧几里得更新几何的方法,用于大型语言模型的内存高效微调,具有理论收敛保证,并在OPT-1.3B模型上进行了验证。
本文提出了一个用于保险定价的α公平个体偿付保费(α-FISP)框架,该框架在确保偿付能力的同时平衡精算公平和团结公平,通过约束优化得到一系列定价解。
Z Lab、SGLang和Modal发布DFlash,这是一种针对Qwen 3.5 397B-A17B的新型投机解码模型,采用块扩散和KV注入技术,相较于基线实现超过4倍吞吐量提升,相较于原生MTP实现1.5倍提升。
来自Song Han的一条推文强调了在KV缓存压缩方面的持续工作,其中介绍了Weian Mao的一篇博客,讨论了论文中常常被忽视的系统级方面。
一种名为kvflash的新型KV缓存优化,可在单张RTX 3090上使Qwen 3.6-27B的生成速度翻倍并降低显存使用,同时保持准确性。
本文详细介绍了 Clojure 如何借助 JVM 的 Vector API 和精心优化,在 3D 压力测试中达到接近 C 的帧率(仅差 20%),展示了动态语言在热循环中也能接近底层性能。
介绍了一种基于Transformer的调度策略,该策略通过强化学习训练,用于开放车间调度问题,展示了在小规模实例上训练的模型能够泛化到更大规模的问题,并与经典调度启发式算法竞争。
提出FedSPC,一种面向个性化联邦学习的模块化校正方法,仅对共享参数应用控制变量校正,在CIFAR-100和Tiny-ImageNet上提升了多种PFL方法的性能。
本文提出了一种面向时尚电商销售活动的“先预测后优化”算法定价工具,利用梯度提升树进行日需求预测,并采用多目标优化。在12个市场的A/B测试中,该系统在保持销售额和收入不变的情况下实现了6%的利润提升,并已在Zalando部署。
这篇乌普萨拉大学的硕士论文与Oracle合作完成,研究了通过提出三种流水线修改和一种替代的注释字段机制,来减少ZGC垃圾收集器中弱引用处理的开销。
由 MIT 应用数学团队提供的免费 57 分钟资源,涵盖了矩阵计算和自动微分,面向量化专家和优化领域,并强调了 Jane Street 为此类技能提供的高额薪酬。
总结了围绕 Hermes Agent 框架的多个社区插件和资源,包括中文实战指南、优化手册、可视化监控工具、原生 macOS GUI 和设计技能包,帮助用户从入门到高级优化。
发布了一个自定义内核,进一步优化来自Lightricks的LTX-2.3,在GB10上实现了1.52倍加速,基于之前的torch.compile和cuDNN注意力优化。