hardware-optimization

#hardware-optimization

@PyTorch：在大型语言模型和推荐系统中，归一化层常因硬件分块要求独特而导致内存瓶颈…

X AI KOLs Following ↗ · 2026-07-10 缓存

Meta 引入了诸如 Lazy Pre-Norm、Multi-CTA Norm Fusion 和 FlashNormAttention 等技术，将归一化操作与 GEMM 和注意力核融合，在 NVIDIA B200 硬件上隐藏多达 90% 的归一化延迟，并在注意力块中实现高达 35% 的延迟降低。

0 人收藏 0 人点赞

#hardware-optimization

Reddit r/LocalLLaMA ↗ · 2026-06-27

关于 PCIe 分叉和 4 路 GPU 配置中 P2P 性能问题的详细发现，包括张量并行和流水线并行的解决方法及替代方案。

0 人收藏 0 人点赞

#hardware-optimization

X AI KOLs Timeline ↗ · 2026-05-21 缓存

推广Codex CLI，该工具可自动推断正确的推理引擎并针对给定硬件优化本地AI性能。

0 人收藏 0 人点赞

#hardware-optimization

X AI KOLs Following ↗ · 2026-05-19

General Instinct 推出一个部署层，使前沿AI模型能够在如 Jetson 和移动 NPU 等受限边缘硬件上运行，帮助机器人技术和物理AI团队实现低延迟离线推理。

0 人收藏 0 人点赞

#hardware-optimization

X AI KOLs Timeline ↗ · 2026-05-11

本文详细对比了GGUF、MLX、Safetensors等主流本地大模型文件格式的特点与应用场景，帮助开发者根据硬件环境选择最优格式。

0 人收藏 0 人点赞

#hardware-optimization

Reddit r/LocalLLaMA ↗ · 2026-05-08

一篇观点文章，重点介绍蓬勃发展的 DGX Spark 开发者社区，该社区正在协作优化硬件，尽管存在局限性，还提到了 Sparkrun 和 PrismaQuant 等项目。

0 人收藏 0 人点赞

#hardware-optimization

arXiv cs.CL ↗ · 2026-04-22 缓存

LogosKG 提出一种贴合硬件的框架，可在含十亿条边的知识图谱上实现可扩展、可解释的多跳检索；通过度感知分区与按需缓存提升效率，同时不损失保真度。

0 人收藏 0 人点赞