标签
作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型,实现高达262k上下文、30+tps的详细调优技巧,并指出从Windows切换到Ubuntu Server后速度提升了25%。
Sayak Paul 描述了一个使用 torch.compile 分析和优化 Diffusers 流水线的项目,并宣布由 Ari G. 教授的相关教程系列。
本文介绍了CAST,一种多项式时间近似算法,用于在传播网络中战略性地分配HIV治疗资源给病毒未抑制个体,以最小化新感染,在真实网络上优于现有基线。
本文介绍了Text2Opt-Bench,一个可扩展的文本到优化基准,并发现大语言模型在“绑定”(问题数据接地)方面存在困难,而非“建模”(选择优化结构)。作者提出了BIND,一种简单的推理时方法,将数值数据外部化,显著提高了各模型的准确率。
介绍了DualOptim+,一个面向LLM遗忘的优化框架,它使用共享基态和解耦增量态来平衡遗忘与保留目标,并提供量化变体以减少内存占用。
本文介绍了COSMO-Agent,一个工具增强的强化学习框架,用于训练LLM执行闭环CAD-CAE优化,迭代生成参数化几何体并运行仿真直到满足约束条件,并包含一个多约束奖励和新的行业对齐数据集。
一条推文指出,按模型宽度缩放嵌入学习率可以替代µP(微参数化)的需求,并提到对隐藏层使用Muon优化器,其余部分使用Adam。
Manning Books 宣布推出一本新的抢先版书籍《Building LLM Applications with DSPy》,教授如何使用DSPy框架通过Python优化LLM提示。该书在6月3日前享受50%折扣。
Charlie Marsh 分享了一个个人目标:寻找能让解析器提速20-30%的简单单行优化。
一篇面向 Claude Code 初学者的配置指南,介绍 8 个关键环境变量以优化性能、降低成本和提升体验。
本文认为,AI的主要目标应该是保护人类能动性,将能动性视为价值观、偏好和一致性对齐的基础基质。它探讨了能动性的削弱如何破坏有意义的评估和行动,并提出AI系统的合法性必须来自在局部层面可证明的能动性保护。
Teknium分享了AI智能体中工具调用的最新性能改进,包括延迟导入、减少每轮对话47%的函数调用、以及延迟压缩可行性检查,并附有GitHub上可运行代码的链接。
llama.cpp的构建9254修复了一个token生成回归问题,并添加了对NVIDIA GPU的PDL(程序化依赖启动)支持,在新硬件上token生成速度提升高达10%。
用户分享了一种在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案,实现了每秒超过 40 个 token 的速度。他们邀请其他人尝试并进一步优化。
深入技术探讨如何缩小 Zig ELF 二进制文件的大小,从 2180K 缩减至 500 字节以下,通过去除调试信息、切换到 ReleaseSmall 以及使用 freestanding 目标。
microsandbox将其缓慢的用户空间FUSE文件系统替换为内核挂载的EROFS磁盘映像,在文件系统操作上实现了几何平均47倍的速度提升,并消除了虚拟机/主机往返瓶颈。
介绍QuantFPFlow,一种强化学习框架,利用量子振幅估计在连续控制的Fokker-Planck配分函数估计中实现二次加速,从而改善探索并避免局部最优。
本文指出了Dion低秩谱优化器中的几何失配,并提出了Orth-Dion,该方案用QR正交化替换列归一化,以在相同通信成本下弥合与Muon等全秩方法的收敛差距,并在大规模语言模型预训练中进行了验证。