@PyTorch: 首次PyTorch Meetup新加坡活动汇聚了工程师、研究人员和社区建设者,共同探讨了……
摘要
首次PyTorch Meetup新加坡活动汇聚了AI从业者,围绕vLLM更新、主权智能和开源交流进行了技术讲座。
查看缓存全文
缓存时间: 2026/06/14 00:19
首届 PyTorch Meetup 新加坡站汇聚了工程师、研究人员和社区建设者,共同探讨从 vLLM 项目更新到更广泛的主权智能等一系列话题。
阅读完整的技术回顾并查看演示文稿幻灯片,请访问我们的最新博客:https://bit.ly/4vdcPJU
APAC 区域的里程碑 – PyTorch
来源:https://pytorch.org/blog/pytorch-meetup-singapore-a-milestone-in-apac/?_gl=11uegd78_up*MQ
特色项目
- PyTorch 标志 (https://pytorch.org/projects/pytorch/)
- vLLM 标志 (https://pytorch.org/projects/vllm/)
摘要
八十位工程师、研究人员和社区建设者齐聚首届 PyTorch Meetup 新加坡站 (http://google.com/url?q=https://luma.com/8scaib4z&sa=D&source=docs&ust=1781257589837941&usg=AOvVaw0sDgY8_ac7sISoTZh3DEBI)。本次活动在红帽亚太办公室举办,由 Sudhir Dharanendraiah (https://www.linkedin.com/in/sudhir-dharanendraiah-80a0867/)、Ayush Satyam (https://www.linkedin.com/in/ayushsatyam146/)、Sumantro Mukherjee (https://www.linkedin.com/in/sumantrom/) 和 Daniel Kang (AER Labs) (https://www.linkedin.com/in/aer-dk/) 组织,汇聚了来自亚太地区的 AI 从业者,共度了一个充满技术演讲、开源交流以及关于如何将 AI 从研究笔记本推向生产的坦诚对话的夜晚。
在本博客中,我们将深入探讨所讨论的主题:推理、分布式训练、持续集成、社区治理以及更广泛的技术主权问题。
PyTorch 新加坡 Meetup - 全体与会者
主权智能:构建亚太地区的 AI 未来
Sudhir Dharanendraiah (红帽) 以一个发人深省的观点拉开了当晚的序幕:亚太地区必须从 AI 技术的消费者转变为架构师。他的演讲“主权智能:构建亚太地区的 AI 未来”指出,真正的技术独立不仅需要政策雄心,还需要投资于使主权 AI 切实可行的工程“管道”。Sudhir 向观众介绍了 PyTorch 生态系统中的几个基础构建块,包括用于硬件无关设备注册的 OpenReg、用于可移植性能的 torch.compile,以及用于在本地芯片上可扩展训练的完全分片数据并行 (FSDP)。相关演示文稿可在此处找到 (https://drive.google.com/file/d/1yTga_plbL-Ay_EwTsLy5jf4DmCrtnJ1t/view)。
Sudhir Dharanendraiah (红帽) 在新加坡 Meetup 上演讲
他重点介绍了如何将 vLLM 等高吞吐量服务工具有效部署在主权硬件上,并论证了开源社区在连接全球 AI 研究与区域生产就绪性方面拥有独特优势。这场演讲在来自积极投资国内 AI 能力的国家的听众中引起了强烈共鸣,并为当晚余下的活动定下了协作基调:主权并非孤立,而是在共享、开放的基础上自由构建的能力。
Sudhir Dharanendraiah (红帽) 在新加坡 Meetup 上演讲
介绍 vLLM 的新 Rust 前端
Ziqi Zhao (https://www.linkedin.com/in/bugenzhao/),Inferact 公司的技术团队成员(该公司由 vLLM 的原创作者资助),介绍了推理引擎的新型 Rust 前端相关工作。Zhao 解释说,随着每一代 GPU 速度越来越快,Python 的全局解释器锁、动态类型和垃圾回收带来的 CPU 端开销已成为日益明显的瓶颈。Rust 前端通过提供单进程内更高的并发性和可预测的内存管理来解决这个问题,而无需替换 Python 引擎本身。
该架构采用清晰的分层设计——从通过 ZMQ 和 MessagePack 通信的低层引擎核心客户端,经过分词和聊天渲染层,一直到兼容 OpenAI 的 HTTP 服务器。流式处理是主要的设计路径,而非事后考虑,每一层都充当流转换。在配备四块 GPU 的 GB200 配置上,使用 Qwen3-0.6B 进行的基准测试显示,在解码敏感型和预处理密集型工作负载方面都有显著改进。Zhao 指出,一个集成拉取请求预计很快将合并到 vLLM 主仓库中,最初将作为 git 子模块,并通过环境变量控制以便轻松选择加入。演示文稿可在此处找到 (https://drive.google.com/file/d/1f4pGriEaZOTlTapPz3GvhgbC0dONaFRU/view)。
Ziqi Zhao 在新加坡 Meetup 上
vLLM 介绍与项目更新
Pin Siang Tan (http://google.com/url?q=https://www.linkedin.com/in/tanpinsiang/&sa=D&source=docs&ust=1781257800697133&usg=AOvVaw3QhLx_sBxbF4j4bPjQKvQ8),Embedded LLM 联合创始人兼 vLLM 贡献者,全面介绍了 vLLM 的核心架构及其到 2026 年的发展轨迹。他首先区分了 vLLM 与 Ollama 等更轻量级的工具:后者针对单用户笔记本推理,而 vLLM 则专为并发、生产级服务而构建,具有连续批处理、张量/流水线/专家/数据并行性以及预填充-解码分离功能。该引擎现在支持超过一百种模型架构,可在从 NVIDIA 和 AMD GPU 到 TPU 和昇腾 NPU 的硬件上运行,在 GitHub 上拥有超过七万七千颗星,来自五十多个组织的两千多名贡献者。
随后,Tan 介绍了 vLLM 的“秘方”——连续批处理、torch.compile 集成、融合传递、量化 (FP8, INT4, INT8, MXFP4, NVFP4)、推测解码以及一种用于高效资源利用的新型休眠模式。展望 2026 年第二季度,他概述了将 Model Runner V2 固化为默认版本、实现自动调优、引入弹性专家并行(允许在不重启的情况下向实时部署添加或移除 GPU),以及扩展到强化学习部署和多模态服务的计划。他结尾的幻灯片总结了该项目信心:“如果你在 2026 年提供 LLM 服务,你要么在使用 vLLM,要么在解释为什么不用。” 幻灯片可在此处找到 (https://drive.google.com/file/d/1tmOQABWvHGo6UzA_-6K11GQSwRl6Skv9/view)。
Pin Siang Tan 在新加坡 Meetup 上
vLLM-Omni:用于全模态 LLM 的统一平台
来自乐天亚洲的 Wang Zhipeng (https://www.linkedin.com/in/%E5%BF%97%E9%B9%8F-%E6%B1%AA-537882216/) 介绍了 vLLM-Omni,这是一个独立的框架,从核心 vLLM 代码库演变而来,用于服务跨模态(图像、视频、语音和文本)操作的模型,并提供一个单一的兼容 OpenAI 的端点。该框架为自回归和基于扩散的模型提供原生支持,拥有统一的多阶段流水线,以及能够根据每种模态不同的延迟和吞吐量配置文件分配计算资源的模态感知调度。
Wang 描述了 vLLM-Omni 如何已经为从视觉语言助手 (VLA) 到世界模型的工作负载提供支持,并分享了该项目的计划,即通过集成 verl-omni 扩展到具身 AI 和多模态强化学习。这场演讲强调了当晚的一个更广泛的主题:推理栈正在迅速超越文本,工具需要跟上步伐。
Wang Zhipeng 在新加坡 Meetup 上
torch.compile 实战
Ayush Satyam (https://www.linkedin.com/in/ayushsatyam146/) (红帽) 进行了一次横跨十二个流行 PyTorch 生态项目的源代码探索之旅,这些项目涵盖推理、分布式训练、强化学习和特定领域框架。他的核心论点是:torch.compile 不仅仅是一个可以简单打开的开关;它是一项能够重塑代码库的架构决策,而受益最多的项目是那些愿意与编译器相向而行的项目。
Ayush 将其发现组织成四个“幕”。在推理中,他展示了 Hugging Face Transformers 仅编译解码步骤(因为预填充只运行一次且长度可变),而 Diffusers 更进一步,仅编译模型内的重复块;并支持在不重新编译的情况下热切换 LoRA 适配器。在分布式训练中,他对比了 Lightning AI 通过重新排序封装以便编译器能够穿透分布式层的方法,与 DeepSpeed 雄心勃勃的 DeepCompile 子框架(该框架剥离所有 ZeRO-3 钩子,将自定义操作注入编译图,甚至替换 autograd 元类)。在强化学习中,他演示了 TorchRL 如何只编译数学更新函数,而将环境交互留在 Eager Python 中。最后,在特定领域工作中,他重点介绍了 PyG 在导入时使用 Jinja2 代码生成以避免图断裂、MONAI 对医学影像元数据的剥离-重新附加策略,以及 TorchVision 对基于数据依赖形状的未支持符号整数的使用。
演讲以一个编译模式分类法结束:图拆分、编译器猴子补丁、渐进编译、不透明封装、双执行模式和形状稳定——与会者可以将其应用于自己的项目。幻灯片可在此处找到 (https://drive.google.com/file/d/1SbNrWLO-ALMXl52pA6xl2gWixk1XfQQq/view)。
Ayush Satyam (红帽) 在新加坡 Meetup 上
PyTorch 社区与 CI
Sumantro Mukherjee (红帽) 以一个将社区治理与工程严谨性相结合的演讲结束了技术环节。他首先介绍了贡献者旅程——从提交 GitHub issue 开始,经过分类、拉取请求、维护者审查和 @pytorchbot 合并流程——强调分类周转时间中位数不到两个工作日,并且自动化的机器人驱动回滚周期保持了主干的绿色。
演讲的大部分内容集中在 PyTorch 的多云持续集成基础设施上,该基础设施现在每天在五个云提供商(AWS、Azure、GCP、IBM Cloud 和 Linux 基金会的 OSDC)上运行超过九万个 CI 任务,涵盖 x86_64、aarch64 和 ppc64le 架构。他还介绍了多云工作组,这是 PyTorch 基金会 TAC 的一项倡议,参与者包括 Meta、红帽、IBM、NVIDIA、AMD、Google、Intel、华为和 Linux 基金会,其使命是开发可持续的、由社区管理的 CI/CD 基础设施。
除了基础设施之外,Mukherjee 还概述了 PyTorch 基金会的治理结构:技术顾问委员会 (TAC)、五个工作组(CI 基础设施、多云、生态系统、加速器和安全)以及 RFC 流程。他以一个开放邀请结束:TAC 在每月的第二个星期二开会,多云工作组在每周四 UTC 时间下午 5 点开会,两者都向任何想要贡献 (https://lists.pytorch.org/g/tac/messages) 的人开放。幻灯片可在此处找到 (https://drive.google.com/file/d/1clFICwZb5zjS_xxzkDxmcx9-rlqn5CRy/view)。
展望未来
随着正式议程让位于美食与饮品的交流环节(我们吃了披萨!),关于编译器内部、服务架构、认证路径、贡献者工作流程,以及本地区域主权 AI 栈可能样子的讨论一直持续到深夜。对于许多与会者来说,这次 Meetup 是第一次有机会与工作在同一时区、使用相同开源工具的同行建立联系。
首届 PyTorch Meetup 新加坡站证明,在东南亚,对深入、技术扎实的社区活动的需求是真实存在的。凭借近一百名与会者、来自四个组织的六位演讲者,以及一个让参与者置身城市上方的场地,这个夜晚既是一个起点,也是一个意向声明。组织者表示后续会有更多 Meetup,如果现场的能量能说明什么的话,那么下一场需要一个更大的场地。即将举行的活动详情将添加到 AI SGP (https://www.ai.engineer/singapore/2026#side-events)。
活动页面:https://luma.com/8scaib4z
相似文章
@ZixuanLi_: 我的AI工程师新加坡之旅:最激动的是:加入http://Z.ai后第一次出国旅行,以及我的第一次……
参加AI工程师新加坡活动的个人感想,突出首次旅行、与OpenAI和Google DeepMind代表同台演讲、有意义的对话以及社区支持。
@SherryYanJiang: 新加坡@aiDotEngineer大会第一天圆满结束!!精彩的工作坊和领导力会议吸引了近…
新加坡AI Engineer大会第一天尽管下雨,但出席人数众多,举办了工作坊和领导力会议。
@swyx:经过15年的等待,新加坡的开发者们不再等待政府推动科技行业的发展……
新加坡的开发者们主动将旧金山的科技场景带到新加坡,为ClawCon SG设立了分会场,参展知名公司包括Daytona、Tusk、Arize AI和Zoc,由AI Engineer SG提供支持。
加强新加坡的人工智能未来:新的国家伙伴关系
Google DeepMind 与新加坡合作,应用前沿人工智能应对健康、教育和可持续发展等领域的复杂挑战。
@brianchew:新加坡是新的旧金山
一条推文强调了AI Engineer Singapore会议,认为在旧金山进行AI开发的必要性正在减弱,全球各地正在涌现新的中心。