optimization

#optimization

Qwen3.6-35B-A3B Q4 262k上下文，8GB 3070 Ti上可达+30tps

Reddit r/LocalLLaMA ↗ · 2026-05-22

作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型，实现高达262k上下文、30+tps的详细调优技巧，并指出从Windows切换到Ubuntu Server后速度提升了25%。

0 人收藏 0 人点赞

#optimization

@RisingSayak: 我意识到，无法分析的东西就无法优化。这就是为什么我在Diffusers中开始了一个小项目，来……

X AI KOLs Following ↗ · 2026-05-22 缓存

Sayak Paul 描述了一个使用 torch.compile 分析和优化 Diffusers 流水线的项目，并宣布由 Ari G. 教授的相关教程系列。

0 人收藏 0 人点赞

#optimization

基于网络的HIV预防干预：通过级联感知传播抑制

arXiv cs.AI ↗ · 2026-05-22 缓存

本文介绍了CAST，一种多项式时间近似算法，用于在传播网络中战略性地分配HIV治疗资源给病毒未抑制个体，以最小化新感染，在真实网络上优于现有基线。

0 人收藏 0 人点赞

#optimization

模型能建模，但不能绑定：文本到优化中的结构化接地

arXiv cs.LG ↗ · 2026-05-22 缓存

本文介绍了Text2Opt-Bench，一个可扩展的文本到优化基准，并发现大语言模型在“绑定”（问题数据接地）方面存在困难，而非“建模”（选择优化结构）。作者提出了BIND，一种简单的推理时方法，将数值数据外部化，显著提高了各模型的准确率。

0 人收藏 0 人点赞

#optimization

DualOptim+：桥接共享与解耦优化器状态以改进大型语言模型中的机器遗忘

arXiv cs.LG ↗ · 2026-05-22 缓存

介绍了DualOptim+，一个面向LLM遗忘的优化框架，它使用共享基态和解耦增量态来平衡遗忘与保留目标，并提供量化变体以减少内存占用。

0 人收藏 0 人点赞

#optimization

工具增强代理：闭环优化、仿真与建模编排

arXiv cs.AI ↗ · 2026-05-22 缓存

本文介绍了COSMO-Agent，一个工具增强的强化学习框架，用于训练LLM执行闭环CAD-CAE优化，迭代生成参数化几何体并运行仿真直到满足约束条件，并包含一个多约束奖励和新的行业对齐数据集。

0 人收藏 0 人点赞

#optimization

@maximelabonne：事实证明你从来都不需要真正需要µP，你只需要按模型宽度缩放嵌入学习率。我不是nanoGP…

X AI KOLs Following ↗ · 2026-05-21 缓存

一条推文指出，按模型宽度缩放嵌入学习率可以替代µP（微参数化）的需求，并提到对隐藏层使用Muon优化器，其余部分使用Adam。

0 人收藏 0 人点赞

#optimization

@ManningBooks：提示工程很快就会变得混乱。从一个简单的指令开始，可能会变成无休止的调整、上下文修改……

X AI KOLs Following ↗ · 2026-05-21 缓存

Manning Books 宣布推出一本新的抢先版书籍《Building LLM Applications with DSPy》，教授如何使用DSPy框架通过Python优化LLM提示。该书在6月3日前享受50%折扣。

0 人收藏 0 人点赞

#optimization

@charliermarsh: /目标：寻找能让你解析器提速20-30%的简单单行优化

X AI KOLs Following ↗ · 2026-05-21 缓存

Charlie Marsh 分享了一个个人目标：寻找能让解析器提速20-30%的简单单行优化。

0 人收藏 0 人点赞

#optimization

@Xudong07452910: https://x.com/Xudong07452910/status/2057386528859381870

X AI KOLs Timeline ↗ · 2026-05-21 缓存

一篇面向 Claude Code 初学者的配置指南，介绍 8 个关键环境变量以优化性能、降低成本和提升体验。

0 人收藏 0 人点赞

#optimization

AI的目标应该是什么？我认为应该是保护人类能动性。

Reddit r/ArtificialInteligence ↗ · 2026-05-21

本文认为，AI的主要目标应该是保护人类能动性，将能动性视为价值观、偏好和一致性对齐的基础基质。它探讨了能动性的削弱如何破坏有意义的评估和行动，并提出AI系统的合法性必须来自在局部层面可证明的能动性保护。

0 人收藏 0 人点赞

#optimization

@morganlinton: 我向Teknium请教，他可能是世界上最聪明的智能体开发者之一，问他最近在工具调用加速方面做了什么……

X AI KOLs Following ↗ · 2026-05-21 缓存

Teknium分享了AI智能体中工具调用的最新性能改进，包括延迟导入、减少每轮对话47%的函数调用、以及延迟压缩可行性检查，并附有GitHub上可运行代码的链接。

0 人收藏 0 人点赞

#optimization

构建9254修复了我的TG回归问题，并为NVIDIA GPU添加了PDL支持

Reddit r/LocalLLaMA ↗ · 2026-05-20

llama.cpp的构建9254修复了一个token生成回归问题，并添加了对NVIDIA GPU的PDL（程序化依赖启动）支持，在新硬件上token生成速度提升高达10%。

0 人收藏 0 人点赞

#optimization

40+ token/秒 - 在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案

Reddit r/LocalLLaMA ↗ · 2026-05-20

用户分享了一种在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案，实现了每秒超过 40 个 token 的速度。他们邀请其他人尝试并进一步优化。

0 人收藏 0 人点赞

#optimization

Zig ELF 二进制文件代码高尔夫 (2025)

Lobsters Hottest ↗ · 2026-05-20 缓存

深入技术探讨如何缩小 Zig ELF 二进制文件的大小，从 2180K 缩减至 500 字节以下，通过去除调试信息、切换到 ReleaseSmall 以及使用 freestanding 目标。

0 人收藏 0 人点赞

#optimization

二次型三明治

Hacker News Top ↗ · 2026-05-20 缓存

一篇解释优化中强凸性和L-平滑性（即二次型三明治）概念及其在梯度下降性能中作用的文章。

0 人收藏 0 人点赞

#optimization

我们通过删除文件系统使其速度提升了47倍

Hacker News Top ↗ · 2026-05-19 缓存

microsandbox将其缓慢的用户空间FUSE文件系统替换为内核挂载的EROFS磁盘映像，在文件系统操作上实现了几何平均47倍的速度提升，并消除了虚拟机/主机往返瓶颈。

0 人收藏 0 人点赞

#optimization

在不到两纳秒内将整数转换为十进制字符串

Hacker News Top ↗ · 2026-05-19

一篇文章讨论了一种在不到两纳秒内将整数转换为十进制字符串的技术，重点在于性能优化。

0 人收藏 0 人点赞

#optimization

QuantFPFlow：连续强化学习中的Fokker-Planck策略优化的量子振幅估计

arXiv cs.LG ↗ · 2026-05-19 缓存

介绍QuantFPFlow，一种强化学习框架，利用量子振幅估计在连续控制的Fokker-Planck配分函数估计中实现二次加速，从而改善探索并避免局部最优。

0 人收藏 0 人点赞

#optimization

Orth-Dion: 消除分布式低秩谱优化中的几何失配

arXiv cs.LG ↗ · 2026-05-19 缓存

本文指出了Dion低秩谱优化器中的几何失配，并提出了Orth-Dion，该方案用QR正交化替换列归一化，以在相同通信成本下弥合与Muon等全秩方法的收敛差距，并在大规模语言模型预训练中进行了验证。

0 人收藏 0 人点赞

optimization

提交意见反馈