标签
首次PyTorch Meetup新加坡活动汇聚了AI从业者,围绕vLLM更新、主权智能和开源交流进行了技术讲座。
作者感慨一位大哥从四年前跟着吴恩达课程学习到如今在顶刊发表论文的成长历程,并引用了一篇风格迁移论文讲解与PyTorch实现的博客。
NVIDIA推出搭载神经分支预测器的Vera CPU,通过缩短CPU执行时间、提高AI工厂吞吐量,加速智能体AI和强化学习工作负载。
本篇博文继续 PyTorch 性能分析系列内容,探讨 nn.Linear、MLP 块以及使用 Triton 内核的融合技术,以优化性能。
TorchCodec 0.14 新增了适用于CPU和CUDA的HDR视频解码功能,以及一个快速的WAV解码器,能够高效地将视频和音频数据转换为PyTorch张量,用于机器学习工作流。
苹果在 WWDC 2026 上发布了新一代 Siri AI 功能,包括基于 Gemini 的定制模型和集成 PyTorch 的全新 Core AI 库,该库运行在 Google Cloud 的 NVIDIA GPU 上,置于 Private Cloud Compute 环境中。
本项目将阿里达摩院的ZipEnhancer降噪模型从ModelScope pipeline剥离,用纯PyTorch重写推理逻辑并封装为FastAPI服务,支持FP16半精度和长音频分段处理,提供多种降噪模型切换和API接口。
NanoQuant是一种灵活的二进制量化方法,可将稠密Transformer压缩至每个权重低于1比特。本仓库提供了一个PyTorch实现,仍在开发中,能够量化Qwen3-0.6B和Qwen3-4B等模型。
一份精心策划的指南,通过完整的YouTube直播课程系列来学习使用PyTorch进行深度学习,内容涵盖从张量到生成对抗网络,共分为六个部分。
一个对初学者友好的动手GitHub仓库,将类似GPT的LLM架构拆分为简单部分,包含10个Jupyter笔记本,涵盖分词、注意力机制、Transformer块以及用PyTorch实现的微型GPT。
Justin Angel 发布了一个完整的 YouTube 工作坊,教你从零构建自己的大语言模型(基于 GPT-2 和 Qwen3.6 风格),涵盖 Transformer 架构、训练流程,并提供 Excel 手动操作和 Python/PyTorch 代码实践,无需数学或 ML 先修知识。
Helion 是一个 Python 领域特定语言(DSL),可编译为优化的 Triton 代码,用于实现性能可移植的 GPU 内核。本教程将在 PLDI 2026 上介绍 Helion 的架构、自动调优以及 CuteDSL 后端。
PyTorch Foundation 项目 Helion 将在丹佛举办的 PLDI 2026 上开设 Helion DSL 教程。这是一个互动式工作坊,面向编译器研究人员、内核作者和机器学习系统工程师,参与者将编写、自动调优并运行真实的 Helion 内核。
一个实践性 PyTorch 课程,教授从 Transformer 基础到微调和对齐的 LLM 训练,包括 RLHF 和 GRPO。
作者分享了构建 NeuralDBG 的经验,这是一个针对 PyTorch 训练循环的开源调试器,通过监测逐层梯度范数的变化而非全局损失来检测局部故障,如梯度消失/爆炸。文中包含实用代码片段和社区问题。
这是一份初学者友好的指南,介绍如何使用 PyTorch 的 torch.profiler 对神经网络操作进行性能分析和优化,从矩阵乘法和偏置加法开始。它解释了如何读取分析器跟踪并理解 CPU/GPU 交互。
EAGLE 3.1,推测解码的下一代演进,引入了新的FC归一化以提高效率,由EagleCorp与PyTorch、vLLM和TorchSpec合作开发。
这篇来自NVIDIA的文章介绍了如何使用NVIDIA Model Optimizer库,通过训练后量化方法将CLIP模型量化为FP8格式,从而减少VRAM使用并提升在消费级GPU上的推理性能。
Meta 开源了 TLX Block Attention,这是一个 warp 特化的 Triton 内核,在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速,与旋转嵌入融合时加速可达 3.5 倍。
Thermocompute 是一个用于热力学概率计算的 PyTorch 仿真器,通过利用并行的热力学底层,使神经网络层能够实现恒定的建模物理时间推理,并立即提供可用于 GPU 的随机层。