performance-optimization

#performance-optimization

Graphsignal (GitHub Repo)

TLDR AI ↗ · 昨天缓存

Graphsignal 是一个生产级推理性能分析平台，提供详细时间线、大语言模型生成追踪和系统级指标，帮助工程师跨模型、GPU及其他加速器优化AI性能。

0 人收藏 0 人点赞

#performance-optimization

@charles_irl: https://x.com/charles_irl/status/2069113412869914944

X AI KOLs Timeline ↗ · 3天前缓存

详细介绍了针对语音克隆模型的W4A4 CUDA内核优化，通过INT4量化和融合LoRA，实现了比FP16快2.6倍的推理速度。

0 人收藏 0 人点赞

#performance-optimization

@Cander_zhu: 这又是一篇值得认真读的文章：《How modern browsers work》。读完后我有两个强烈感受： 1. 浏览器其实是现代最被低估的“操作系统”。 2. 如果前端/Agent 开发者还把浏览器当黑盒，只会越来越吃亏。从搞产品和…

X AI KOLs Timeline ↗ · 4天前缓存

一条推文总结了对《How modern browsers work》一文的读后感，强调浏览器作为现代操作系统的价值，并为前端和Agent开发者提供了5个关键洞察，包括多进程架构、JS引擎编译管线、性能优化等。

0 人收藏 0 人点赞

#performance-optimization

PSA：测试你在 llama.cpp 中的“线程”参数（我的情况提升了 80% 的性能）

Reddit r/LocalLLaMA ↗ · 2026-06-12

一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试，发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能，并分享了最佳命令配置。

0 人收藏 0 人点赞

#performance-optimization

@josh_tobin_: 很多人都在问我我们在@Recursive_SI做什么。我们现在还不能透露太多，但我们想……

X AI KOLs Following ↗ · 2026-06-11 缓存

Josh Tobin预告了Recursive_SI的自动化研究员，展示了性能优化能力的早期演示。

0 人收藏 0 人点赞

#performance-optimization

通过向量化和缓存加速NeurASP

arXiv cs.AI ↗ · 2026-06-10 缓存

本文通过实现向量化、批处理和缓存来加速NeurASP神经符号AI框架，在较大任务上实现了多个数量级的提速。

0 人收藏 0 人点赞

#performance-optimization

@leopardracer: 同一GPU、同一模型、同一上下文，速度翻倍！RTX 4060，Gemma 4 12B，48k上下文，仅切换量化方式从 q4_k_m 到 q4_k_xl…

X AI KOLs Timeline ↗ · 2026-06-08 缓存

在 llama.cpp 中，将量化从 q4_k_m 切换为 q4_k_xl，可在相同 GPU（RTX 4060）上使推理速度翻倍，无需更换硬件或驱动，如 Gemma 4 12B 所示。

0 人收藏 0 人点赞

#performance-optimization

我意外地用一条隐藏的PCIe 2.0 x4插槽削弱了4x RTX 3090 LLM设备的性能，修复后使Mistral 128B的性能翻倍。

Reddit r/LocalLLaMA ↗ · 2026-06-04

用户发现，Threadripper 工作站主板上一处隐藏的 PCIe 2.0 x4 电气限制导致四块 RTX 3090 中的一块性能受限，从而影响了多 GPU 大语言模型推理性能。通过调整插槽布局并切换至张量分裂模式，Mistral 128B 的吞吐量从约 11 tok/s 翻倍至约 24.7 tok/s。

0 人收藏 0 人点赞

#performance-optimization

KForge：面向AI加速器的LLM驱动跨平台内核生成

arXiv cs.LG ↗ · 2026-06-03 缓存

KForge是一个跨平台框架，利用两个协作的基于LLM的智能体，自动生成和优化适用于多种AI加速器的高性能计算内核，在NVIDIA B200和Intel Arc B580硬件上实现了显著的加速效果。

0 人收藏 0 人点赞

#performance-optimization

@Greptime: 关于Prometheus远程写入，瓶颈并非网络或memtable——而是Region Worker在dec…时持有&mut

X AI KOLs Following ↗ · 2026-06-02 缓存

GreptimeDB v1.0引入了Pending Rows Batcher，这是一个三阶段流水线，将CPU密集型工作从Datanode的关键路径上移开，使Prometheus远程写入吞吐量从120万提升到217万points/sec，并将Datanode的CPU使用率降低20%。

0 人收藏 0 人点赞

#performance-optimization

使用AI编写10万行Rust代码的心得（2025）

Hacker News Top ↗ · 2026-05-20 缓存

一位开发者分享了使用AI编程助手构建一个基于Rust的10万行多Paxos共识引擎的心得，实现了显著的生产力提升和性能改进。

0 人收藏 0 人点赞

#performance-optimization

@AYi_AInotes: 在我刚入行那几年，记得代码库里有一种人是被默默崇拜的，他能在十几层调用栈里一眼看出 N+1，能在火焰图里指出哪个函数被多调了三次，今天 Greg Brockman 转的那个 Codex Skill，第一次让这件事不再是少数人的特权…

X AI KOLs Timeline ↗ · 2026-05-16 缓存

A Chinese developer discusses a new Codex Skill called Complexity Optimizer that automatically detects performance issues like O(n²) in codebases, making advanced optimization skills accessible to more developers.

0 人收藏 0 人点赞

#performance-optimization