kernel-optimization

标签

Cards List
#kernel-optimization

@bingxu_: 两个月前我创办了INT21,今天我很自豪地宣布我们走出隐身模式,推出第一款产品……

X AI KOLs Timeline · 2026-06-16 缓存

INT21 宣布推出 PTX Kernel Factory,这是一个自我改进的智能体集群,能够自主大规模生成专家级 PTX GPU 内核,并提供开源概念验证实现和 beta 访问权限。

0 人收藏 0 人点赞
#kernel-optimization

@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…

X AI KOLs Timeline · 2026-06-15 缓存

一条推文讨论了两种agentic GPU内核优化系统:@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents,两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。

0 人收藏 0 人点赞
#kernel-optimization

@charles_irl: 给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。推理与训练不…

X AI KOLs Following · 2026-06-11 缓存

解释推理内核与训练不同,Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。

0 人收藏 0 人点赞
#kernel-optimization

@charles_irl: 去年秋天,我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起,我们一直在…

X AI KOLs Following · 2026-06-11 缓存

一篇博客文章详细介绍了对FlashAttention-4的贡献,通过调整并行策略和支持不规则内存访问,以提升其在大型语言模型推理中的性能,特别是针对解码密集型工作负载。

0 人收藏 0 人点赞
#kernel-optimization

@_akhaliq: GPU Forecasters 语言模型作为内核运行时优化的选择性代理

X AI KOLs Following · 2026-06-02 缓存

本文提出使用语言模型作为选择性代理来优化GPU内核运行时,展示了一种新颖的性能预测方法。

0 人收藏 0 人点赞
#kernel-optimization

阿里Qwen3.7-Max在陌生硬件上自主运行35小时,持续自我优化

Reddit r/ArtificialInteligence · 2026-05-25 缓存

阿里Qwen3.7-Max模型在陌生T-Head PPU硬件上,无需人工引导,自主优化生产内核长达35小时,进行1158次工具调用,实现10倍速度提升,展示了持续的自主智能体行为。

0 人收藏 0 人点赞
#kernel-optimization

@ickma2311: 高效AI讲座13:LLM部署技术 该讲座帮助我很好地理解了AWQ、vLLM和FlashAttention…

X AI KOLs Timeline · 2026-05-13 缓存

一场关于LLM部署技术的讲座,涵盖AWQ、vLLM、FlashAttention、量化和激活平滑,以实现高效服务。

0 人收藏 0 人点赞
#kernel-optimization

Metal-Sci:用于 Apple Silicon 上 LLM 驱动演化内核搜索的科学计算基准

Hugging Face Daily Papers · 2026-05-10 缓存

Metal-Sci 推出了一项包含 10 个任务的基准测试,用于优化 Apple Silicon 上的科学计算内核,并配套了由大语言模型驱动的演化搜索框架。该研究评估了 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT 5.5 等模型,在实现显著加速的同时,利用分布外测试来捕获静默的性能退化问题。

0 人收藏 0 人点赞
#kernel-optimization

@xenovacom:Opus 4.7 刚写了一个定制 WebGPU 内核,用融合 LinearAttention 算子把 Qwen3.5 推理速度提升最高 13 倍!智能内核…

X AI KOLs Following · 2026-04-23 缓存

Opus 4.7 自动生成定制 WebGPU 内核,通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍,现已随 Transformers.js v4.2.0 发布。

0 人收藏 0 人点赞
#kernel-optimization

AccelOpt:一种用于AI加速器内核优化的自我改进LLM智能体系统

Hugging Face Daily Papers · 2026-04-15 缓存

AccelOpt是一种自我改进的LLM智能体系统,通过迭代生成和优化记忆自主优化AI加速器内核,在AWS Trainium上实现了49%至61%的峰值吞吐量提升,同时比Claude Sonnet 4便宜26倍。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈