tensorrt-llm

标签

Cards List
#tensorrt-llm

Ada-MK:基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL · 19小时前 缓存

本文介绍了 Ada-MK,一种利用自动化基于有向无环图(DAG)的搜索来消除运行时分支并减少大语言模型(LLM)推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中,该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升,在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。

0 人收藏 0 人点赞
#tensorrt-llm

Blackwell LLM 工具包 - 针对 Blackwell GPU 的 NVFP4 配置 + Wheels + TensorRT-LLM 基准测试 - Nemotron 3 Omni 达到 270 tok/s

Reddit r/LocalLLaMA · 昨天

一个开发者工具包,提供在使用 TensorRT-LLM 通过 Nvidia Blackwell GPU 以 NVFP4 精度运行大型语言模型时的配置、预编译包(wheels)及基准测试数据。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈