optimization

#optimization

信念空间动力学中允许的学习率步长的闭式上界

arXiv cs.LG ↗ · 2天前缓存

本文利用KL散度和Bregman几何，推导了信念空间动力学中允许的学习率步长的闭式上界，重点关注交叉熵分类任务。

0 人收藏 0 人点赞

#optimization

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

Reddit r/LocalLLaMA ↗ · 3天前

作者分享了一种高性能的本地推理配置，使用支持 TurboQuant 的修改版 llama.cpp，在硬件受限（8GB 显存、32GB 内存）的情况下运行 Qwen3.6 35B A3B，实现了 ~37-51 tok/sec 的生成速度，并支持 ~190k 上下文。

0 人收藏 0 人点赞

#optimization

@zeuuss_01: 本周阅读了 40 个 SKILL.md 文件。其中 33 个的描述永远无法触发……它们都有同样的错误。技能本身没问题。描述却是死代码。技能不是按文件名加载的，它们是在描述命中用户刚输入的关键词时加载的。宣传册文案——隐形。五个修复方案 1. 将描述写成触发映射表：停止描述技能做什么，开始列举用户会说的话 > 文件类型：docx、.docx、Word 文档 > 动词：创建、编辑、填写、遮盖、转换 > 交付物：备忘录、合同、报告、信函 > 否定词：不适用于 PDF，不适用于 Google 文档。如果真实用户请求中不包含这三个词中的三个，该技能就是不可见的 2. 针对真实提示词而非合成提示词进行测试：从你过去一周的 Claude 使用记录中提取 20 条消息。将每条消息粘贴到已安装该技能的空白聊天窗口中 > 0/20 - 从头重写 > 5/20 - 缺少动词或文件扩展名 > 15/20 - 可以发布 > 20/20 - 过度拟合，会抢走不相关的任务。测试你实际写过的文本，而不是为了让技能看起来好而写的提示词 3. 添加负向空间：大多数技能被禁用是因为错误触发，而不是因为没有触发 > 不要用于 PDF > 不要用于 Google 表格 > 仅在用户写作时触发，阅读时不要触发 > 如果交付物是 Notion 页面，不要触发。否定词占描述的一半 4. 精简正文：在 SKILL.md 中，任何不会改变 Claude 行为的內容都是累赘。删除：> 使命声明 > "这个技能帮助你..." > 通用的 AI 建议 > 任何 Claude 已经知道的内容 > 像 README 一样的引言段落。剩下的应该像给新员工的一页纸指南 5. 对描述进行版本控制，而不是对正文进行版本控制：描述是路由器唯一能看到的东西。在技能旁边保留一个 descriptions.md：> 你尝试过的每个变体 > 日期 > 0/20 - 20/20 的评分 > 改变了什么。你会迭代描述的频率是正文的 10 倍。追踪它……正文回答“我该如何做”，而描述回答“这甚至是不是我的工作”。

X AI KOLs Following ↗ · 3天前

本文提供了优化 Claude 的 SKILL.md 描述以确保正确触发激活的实用建议，强调具体关键词、负向约束和迭代测试的重要性，而非通用文档。

0 人收藏 0 人点赞

#optimization

用 10 MB 的 FST（有限状态转换器）二进制文件替换 3 GB 的 SQLite 数据库

Hacker News Top ↗ · 3天前缓存

作者描述了将 3 GB 的 SQLite 数据库替换为 10 MB 的有限状态转换器（FST）二进制文件，以优化芬兰语-英语词典工具，在保持性能的同时将内存使用量减少了 300 倍。

1 人收藏 1 人点赞

#optimization

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

X AI KOLs Timeline ↗ · 3天前

研究人员提出了 DFlash 技术，这是一种利用块扩散模型（block diffusion models）进行投机解码的方法，可在不损失准确度的情况下，将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。

1 人收藏 0 人点赞

#optimization

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA ↗ · 4天前

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

1 人收藏 1 人点赞

#optimization

jank 现已拥有自己的自定义 IR

Lobsters Hottest ↗ · 4天前缓存

jank 是一种 Clojure 方言，现已引入一种在 Clojure 语义层面设计的自定义中间表示，以实现更好的优化并与 JVM 竞争。

0 人收藏 0 人点赞

#optimization

冰淇淋混合（1965年）[PDF]

Hacker News Top ↗ · 5天前缓存

这是一份 IBM 于 1965 年发布的数字化文档，详细阐述了线性规划在冰淇淋混合优化中的应用。

0 人收藏 0 人点赞

#optimization

@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白，“-ncmoe”是在llama.cpp上提升性能的关键标志…

X AI KOLs Timeline ↗ · 5天前

解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存，在有限显存（8-12GB）上提升MoE模型（如Qwen3.6 35B A3B）的性能，基准测试显示在RTX 3070Ti上可实现高达5倍的加速。

0 人收藏 0 人点赞

#optimization

QBE – 编译器后端

Hacker News Top ↗ · 5天前缓存

QBE 是一个紧凑的、爱好级别的编译器后端，仅用 10% 的代码即可实现工业级优化编译器 70% 的性能，支持 amd64、arm64 和 riscv64，并采用简单的基于 SSA 的中间语言。

0 人收藏 0 人点赞

#optimization

新一代AI模型与最具影响力的研究论文之一。

Reddit r/LocalLLaMA ↗ · 5天前

Token AI发布了一篇研究论文，介绍STAM——一种新型自适应动量优化器，旨在提升训练稳定性并降低内存占用，相比AdamW等标准优化器效果更优。

0 人收藏 0 人点赞

#optimization

通过隐式梯度传输加速基于 LMO 的优化

arXiv cs.LG ↗ · 5天前缓存

本文提出了 LMO-IGT，这是一类新的随机优化方法，它利用隐式梯度传输来加速收敛，同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架，并展示了相较于 Muon 等现有基于 LMO 的优化器，该方法具有更优的性能。

0 人收藏 0 人点赞

#optimization

MEMOA：基于平均场去中心化纳什均衡的大规模在线智能体混合方法

arXiv cs.LG ↗ · 5天前缓存

本文介绍了 MEMOA，这是一种针对大规模在线智能体的去中心化策略。该策略通过平均场纳什均衡实现最优性，在超越贪婪基线的同时，比中心化方法具有更好的扩展性。

0 人收藏 0 人点赞

#optimization

SPADE：通过从稀疏数据中学习加速药物发现

arXiv cs.LG ↗ · 5天前缓存

本文介绍了 SPADE，这是一种用于药物发现的新颖算法，能够仅通过约 40 次测试便从稀疏数据中高效识别出高质量配体。与深度学习和贝叶斯优化方法相比，SPADE 展现了更优的样本效率和速度。

0 人收藏 0 人点赞

#optimization

在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试

Reddit r/LocalLLaMA ↗ · 5天前

对 Qwen 3.6 27B MTP 在 4 张 RTX 3090 GPU 上的基准分析表明，基于 NVLink 的张量并行相较于 PCIe 配置可实现显著的吞吐量提升（最高达 +53%）。

0 人收藏 0 人点赞

#optimization

FlashEvolve：通过异步阶段编排加速智能体自我进化

Hugging Face Daily Papers ↗ · 5天前缓存

FlashEvolve 是一个框架，它利用异步阶段编排和工件版本追踪来加速基于大语言模型（LLM）的智能体自我进化。与同步执行方法相比，它显著提高了吞吐量和 token 效率。

0 人收藏 0 人点赞

#optimization

信念空间动力学中可容许学习率步长的闭式上界

Hugging Face Daily Papers ↗ · 6天前缓存

本文提出了信念空间动力学中可容许学习率步长的闭式上界，为机器人或控制领域的优化提供了理论结果。

0 人收藏 0 人点赞

#optimization

PACEvolve++：提升进化搜索代理的测试时学习能力

Hugging Face Daily Papers ↗ · 6天前缓存

本文介绍了 PACEvolve++，这是一种强化学习框架，通过将假设生成与执行解耦，提高了进化搜索代理在测试时的策略适应能力。

0 人收藏 0 人点赞

#optimization

Qwen-3.6-27B + llamacpp 投机解码效果惊艳

Reddit r/LocalLLaMA ↗ · 2026-04-23

Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s，并分享了完整的命令参数和硬件配置。

0 人收藏 0 人点赞

#optimization

混合策略蒸馏（HPD）：面向大模型的统一知识蒸馏

arXiv cs.CL ↗ · 2026-04-23 缓存

提出混合策略蒸馏（HPD），一种统一的知识蒸馏方法，平衡前向与反向 KL 散度，结合离线数据与轻量级在线采样，在数学推理、对话与代码任务上全面提升大模型压缩效果。

0 人收藏 0 人点赞

optimization

提交意见反馈