optimization

标签

Cards List
#optimization

信念空间动力学中允许的学习率步长的闭式上界

arXiv cs.LG · 2天前 缓存

本文利用KL散度和Bregman几何,推导了信念空间动力学中允许的学习率步长的闭式上界,重点关注交叉熵分类任务。

0 人收藏 0 人点赞
#optimization

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文

Reddit r/LocalLLaMA · 3天前

作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。

0 人收藏 0 人点赞
#optimization

@zeuuss_01: 本周阅读了 40 个 SKILL.md 文件。其中 33 个的描述永远无法触发……它们都有同样的错误。技能本身没问题。描述却是死代码。技能不是按文件名加载的,它们是在描述命中用户刚输入的关键词时加载的。宣传册文案——隐形。五个修复方案 1. 将描述写成触发映射表:停止描述技能做什么,开始列举用户会说的话 > 文件类型:docx、.docx、Word 文档 > 动词:创建、编辑、填写、遮盖、转换 > 交付物:备忘录、合同、报告、信函 > 否定词:不适用于 PDF,不适用于 Google 文档。如果真实用户请求中不包含这三个词中的三个,该技能就是不可见的 2. 针对真实提示词而非合成提示词进行测试:从你过去一周的 Claude 使用记录中提取 20 条消息。将每条消息粘贴到已安装该技能的空白聊天窗口中 > 0/20 - 从头重写 > 5/20 - 缺少动词或文件扩展名 > 15/20 - 可以发布 > 20/20 - 过度拟合,会抢走不相关的任务。测试你实际写过的文本,而不是为了让技能看起来好而写的提示词 3. 添加负向空间:大多数技能被禁用是因为错误触发,而不是因为没有触发 > 不要用于 PDF > 不要用于 Google 表格 > 仅在用户写作时触发,阅读时不要触发 > 如果交付物是 Notion 页面,不要触发。否定词占描述的一半 4. 精简正文:在 SKILL.md 中,任何不会改变 Claude 行为的內容都是累赘。删除:> 使命声明 > "这个技能帮助你..." > 通用的 AI 建议 > 任何 Claude 已经知道的内容 > 像 README 一样的引言段落。剩下的应该像给新员工的一页纸指南 5. 对描述进行版本控制,而不是对正文进行版本控制:描述是路由器唯一能看到的东西。在技能旁边保留一个 descriptions.md:> 你尝试过的每个变体 > 日期 > 0/20 - 20/20 的评分 > 改变了什么。你会迭代描述的频率是正文的 10 倍。追踪它……正文回答“我该如何做”,而描述回答“这甚至是不是我的工作”。

X AI KOLs Following · 3天前

本文提供了优化 Claude 的 SKILL.md 描述以确保正确触发激活的实用建议,强调具体关键词、负向约束和迭代测试的重要性,而非通用文档。

0 人收藏 0 人点赞
#optimization

用 10 MB 的 FST(有限状态转换器)二进制文件替换 3 GB 的 SQLite 数据库

Hacker News Top · 3天前 缓存

作者描述了将 3 GB 的 SQLite 数据库替换为 10 MB 的有限状态转换器(FST)二进制文件,以优化芬兰语-英语词典工具,在保持性能的同时将内存使用量减少了 300 倍。

1 人收藏 1 人点赞
#optimization

@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……

X AI KOLs Timeline · 3天前

研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。

1 人收藏 0 人点赞
#optimization

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA · 4天前

开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。

1 人收藏 1 人点赞
#optimization

jank 现已拥有自己的自定义 IR

Lobsters Hottest · 4天前 缓存

jank 是一种 Clojure 方言,现已引入一种在 Clojure 语义层面设计的自定义中间表示,以实现更好的优化并与 JVM 竞争。

0 人收藏 0 人点赞
#optimization

冰淇淋混合(1965年)[PDF]

Hacker News Top · 5天前 缓存

这是一份 IBM 于 1965 年发布的数字化文档,详细阐述了线性规划在冰淇淋混合优化中的应用。

0 人收藏 0 人点赞
#optimization

@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白,“-ncmoe”是在llama.cpp上提升性能的关键标志…

X AI KOLs Timeline · 5天前

解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存,在有限显存(8-12GB)上提升MoE模型(如Qwen3.6 35B A3B)的性能,基准测试显示在RTX 3070Ti上可实现高达5倍的加速。

0 人收藏 0 人点赞
#optimization

QBE – 编译器后端

Hacker News Top · 5天前 缓存

QBE 是一个紧凑的、爱好级别的编译器后端,仅用 10% 的代码即可实现工业级优化编译器 70% 的性能,支持 amd64、arm64 和 riscv64,并采用简单的基于 SSA 的中间语言。

0 人收藏 0 人点赞
#optimization

新一代AI模型与最具影响力的研究论文之一。

Reddit r/LocalLLaMA · 5天前

Token AI发布了一篇研究论文,介绍STAM——一种新型自适应动量优化器,旨在提升训练稳定性并降低内存占用,相比AdamW等标准优化器效果更优。

0 人收藏 0 人点赞
#optimization

通过隐式梯度传输加速基于 LMO 的优化

arXiv cs.LG · 5天前 缓存

本文提出了 LMO-IGT,这是一类新的随机优化方法,它利用隐式梯度传输来加速收敛,同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架,并展示了相较于 Muon 等现有基于 LMO 的优化器,该方法具有更优的性能。

0 人收藏 0 人点赞
#optimization

MEMOA:基于平均场去中心化纳什均衡的大规模在线智能体混合方法

arXiv cs.LG · 5天前 缓存

本文介绍了 MEMOA,这是一种针对大规模在线智能体的去中心化策略。该策略通过平均场纳什均衡实现最优性,在超越贪婪基线的同时,比中心化方法具有更好的扩展性。

0 人收藏 0 人点赞
#optimization

SPADE:通过从稀疏数据中学习加速药物发现

arXiv cs.LG · 5天前 缓存

本文介绍了 SPADE,这是一种用于药物发现的新颖算法,能够仅通过约 40 次测试便从稀疏数据中高效识别出高质量配体。与深度学习和贝叶斯优化方法相比,SPADE 展现了更优的样本效率和速度。

0 人收藏 0 人点赞
#optimization

在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试

Reddit r/LocalLLaMA · 5天前

对 Qwen 3.6 27B MTP 在 4 张 RTX 3090 GPU 上的基准分析表明,基于 NVLink 的张量并行相较于 PCIe 配置可实现显著的吞吐量提升(最高达 +53%)。

0 人收藏 0 人点赞
#optimization

FlashEvolve:通过异步阶段编排加速智能体自我进化

Hugging Face Daily Papers · 5天前 缓存

FlashEvolve 是一个框架,它利用异步阶段编排和工件版本追踪来加速基于大语言模型(LLM)的智能体自我进化。与同步执行方法相比,它显著提高了吞吐量和 token 效率。

0 人收藏 0 人点赞
#optimization

信念空间动力学中可容许学习率步长的闭式上界

Hugging Face Daily Papers · 6天前 缓存

本文提出了信念空间动力学中可容许学习率步长的闭式上界,为机器人或控制领域的优化提供了理论结果。

0 人收藏 0 人点赞
#optimization

PACEvolve++:提升进化搜索代理的测试时学习能力

Hugging Face Daily Papers · 6天前 缓存

本文介绍了 PACEvolve++,这是一种强化学习框架,通过将假设生成与执行解耦,提高了进化搜索代理在测试时的策略适应能力。

0 人收藏 0 人点赞
#optimization

Qwen-3.6-27B + llamacpp 投机解码效果惊艳

Reddit r/LocalLLaMA · 2026-04-23

Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s,并分享了完整的命令参数和硬件配置。

0 人收藏 0 人点赞
#optimization

混合策略蒸馏(HPD):面向大模型的统一知识蒸馏

arXiv cs.CL · 2026-04-23 缓存

提出混合策略蒸馏(HPD),一种统一的知识蒸馏方法,平衡前向与反向 KL 散度,结合离线数据与轻量级在线采样,在数学推理、对话与代码任务上全面提升大模型压缩效果。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈