performance-optimization

标签

Cards List
#performance-optimization

Graphsignal (GitHub Repo)

TLDR AI · 昨天 缓存

Graphsignal 是一个生产级推理性能分析平台,提供详细时间线、大语言模型生成追踪和系统级指标,帮助工程师跨模型、GPU及其他加速器优化AI性能。

0 人收藏 0 人点赞
#performance-optimization

@charles_irl: https://x.com/charles_irl/status/2069113412869914944

X AI KOLs Timeline · 3天前 缓存

详细介绍了针对语音克隆模型的W4A4 CUDA内核优化,通过INT4量化和融合LoRA,实现了比FP16快2.6倍的推理速度。

0 人收藏 0 人点赞
#performance-optimization

@Cander_zhu: 这又是一篇值得认真读的文章:《How modern browsers work》。 读完后我有两个强烈感受: 1. 浏览器其实是现代最被低估的“操作系统”。 2. 如果前端/Agent 开发者还把浏览器当黑盒,只会越来越吃亏。 从搞产品和…

X AI KOLs Timeline · 4天前 缓存

一条推文总结了对《How modern browsers work》一文的读后感,强调浏览器作为现代操作系统的价值,并为前端和Agent开发者提供了5个关键洞察,包括多进程架构、JS引擎编译管线、性能优化等。

0 人收藏 0 人点赞
#performance-optimization

PSA:测试你在 llama.cpp 中的“线程”参数(我的情况提升了 80% 的性能)

Reddit r/LocalLLaMA · 2026-06-12

一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试,发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能,并分享了最佳命令配置。

0 人收藏 0 人点赞
#performance-optimization

@josh_tobin_: 很多人都在问我我们在@Recursive_SI做什么。我们现在还不能透露太多,但我们想……

X AI KOLs Following · 2026-06-11 缓存

Josh Tobin预告了Recursive_SI的自动化研究员,展示了性能优化能力的早期演示。

0 人收藏 0 人点赞
#performance-optimization

通过向量化和缓存加速NeurASP

arXiv cs.AI · 2026-06-10 缓存

本文通过实现向量化、批处理和缓存来加速NeurASP神经符号AI框架,在较大任务上实现了多个数量级的提速。

0 人收藏 0 人点赞
#performance-optimization

@leopardracer: 同一GPU、同一模型、同一上下文,速度翻倍!RTX 4060,Gemma 4 12B,48k上下文,仅切换量化方式从 q4_k_m 到 q4_k_xl…

X AI KOLs Timeline · 2026-06-08 缓存

在 llama.cpp 中,将量化从 q4_k_m 切换为 q4_k_xl,可在相同 GPU(RTX 4060)上使推理速度翻倍,无需更换硬件或驱动,如 Gemma 4 12B 所示。

0 人收藏 0 人点赞
#performance-optimization

我意外地用一条隐藏的PCIe 2.0 x4插槽削弱了4x RTX 3090 LLM设备的性能,修复后使Mistral 128B的性能翻倍。

Reddit r/LocalLLaMA · 2026-06-04

用户发现,Threadripper 工作站主板上一处隐藏的 PCIe 2.0 x4 电气限制导致四块 RTX 3090 中的一块性能受限,从而影响了多 GPU 大语言模型推理性能。通过调整插槽布局并切换至张量分裂模式,Mistral 128B 的吞吐量从约 11 tok/s 翻倍至约 24.7 tok/s。

0 人收藏 0 人点赞
#performance-optimization

KForge:面向AI加速器的LLM驱动跨平台内核生成

arXiv cs.LG · 2026-06-03 缓存

KForge是一个跨平台框架,利用两个协作的基于LLM的智能体,自动生成和优化适用于多种AI加速器的高性能计算内核,在NVIDIA B200和Intel Arc B580硬件上实现了显著的加速效果。

0 人收藏 0 人点赞
#performance-optimization

@Greptime: 关于Prometheus远程写入,瓶颈并非网络或memtable——而是Region Worker在dec…时持有&mut

X AI KOLs Following · 2026-06-02 缓存

GreptimeDB v1.0引入了Pending Rows Batcher,这是一个三阶段流水线,将CPU密集型工作从Datanode的关键路径上移开,使Prometheus远程写入吞吐量从120万提升到217万points/sec,并将Datanode的CPU使用率降低20%。

0 人收藏 0 人点赞
#performance-optimization

使用AI编写10万行Rust代码的心得(2025)

Hacker News Top · 2026-05-20 缓存

一位开发者分享了使用AI编程助手构建一个基于Rust的10万行多Paxos共识引擎的心得,实现了显著的生产力提升和性能改进。

0 人收藏 0 人点赞
#performance-optimization

@AYi_AInotes: 在我刚入行那几年, 记得代码库里有一种人是被默默崇拜的, 他能在十几层调用栈里一眼看出 N+1,能在火焰图里指出哪个函数被多调了三次, 今天 Greg Brockman 转的那个 Codex Skill, 第一次让这件事不再是少数人的特权…

X AI KOLs Timeline · 2026-05-16 缓存

A Chinese developer discusses a new Codex Skill called Complexity Optimizer that automatically detects performance issues like O(n²) in codebases, making advanced optimization skills accessible to more developers.

0 人收藏 0 人点赞
#performance-optimization

@pupposandro:在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU(gfx1151,……)发布了 DFlash + PFlash

X AI KOLs Following · 2026-05-12

一套新工具集(DFlash + PFlash)在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度,展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。

0 人收藏 0 人点赞
#performance-optimization

干掉 `Cow` 让我的 JSON 格式化器提速 42%

Lobsters Hottest · 2026-05-12 缓存

作者详细介绍了如何通过移除写时复制(Copy-on-Write, Cow)数据结构,使其 JSON 格式化器 JJPWRGEM 的性能提升了 42%,使其速度显著优于 Prettier 和 Oxfmt。

0 人收藏 0 人点赞
#performance-optimization

在 Linux 和 Unix 系统上编译 Emacs 以提升性能的技术指南

Lobsters Hottest · 2026-05-12 缓存

本技术指南提供了在各类 Linux 发行版上从源码编译 Emacs 的详细步骤,旨在通过 CPU 特定指令集和 Wayland 等现代显示协议来优化性能。文中还涵盖了依赖项配置以及微调原生 Lisp 编译器以提升执行速度的相关内容。

0 人收藏 0 人点赞
#performance-optimization

大幅提升 --n-cpu-moe 部分卸载模型的提示词处理速度

Reddit r/LocalLLaMA · 2026-05-12

本文分享了一个 llama.cpp 的性能优化技巧,展示了增大微批大小(`-ub`)并结合部分 CPU 卸载(`--n-cpu-moe`)可以显著提升 gpt-oss-120b 等大型模型在消费级 GPU 上的提示词处理速度。

0 人收藏 0 人点赞
#performance-optimization

让编写跨平台 SIMD 代码变得愉快

Lobsters Hottest · 2026-05-11 缓存

作者详细介绍了 bx 库跨平台 SIMD 抽象的第三次迭代,倡导无类型方法和 SSA 风格编码,以简化不同 CPU 架构上的底层性能优化。

0 人收藏 0 人点赞
#performance-optimization

用 Swift 训练大语言模型,第一部分:将矩阵乘法从 Gflop/s 提升到 Tflop/s

Hacker News Top · 2026-05-10 缓存

作者详细介绍了在 Apple Silicon 上优化 Swift 自定义矩阵乘法内核以训练大语言模型的过程,旨在通过利用 CPU、SIMD、AMX 和 GPU 能力,实现超越 C 实现的性能。

0 人收藏 0 人点赞
#performance-optimization

为变更优化,而非应用性能

Hacker News Top · 2026-05-09 缓存

本文指出,软件团队常常过度优化微性能基准测试,却牺牲了开发者体验和工程吞吐量,而这两者才是长期交付速度与可维护性的真正瓶颈。

0 人收藏 0 人点赞
#performance-optimization

在Ryzen AI 7 350 NPU上达到峰值TOPS性能

Lobsters Hottest · 2026-05-08 缓存

关于在AMD Ryzen AI 7 350 NPU上实现峰值TOPS性能的技术深度剖析,与Xilinx AIE-ML v2 AI引擎进行比较,并解释用于矩阵乘法工作负载的硬件架构。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈