将任意图像转化为可玩游戏的深度神经网络!全部在消费级GPU上运行,而非数据中心
摘要
作者介绍了一个小型基于Transformer的神经网络,从零开始训练,能够将任意图像转化为可玩游戏,在RTX 5090等消费级GPU上实时运行。该模型使用自回归解码和KV缓存,但目前存在运动和上下文问题。
大家好!!我真的很想分享我正在研究的成果。我想构建一个能够模拟游戏的神经网络,或者至少开始尝试。大多数视频生成器太大,无法在消费级硬件上实时运行,因此我从零开始设计了一个模型。没有微调之类的废话。核心的去噪网络完全从零开始训练,以支持这一目标。从图像到游戏数据。上面的视频是在RTX 5090上运行的。这个神经网络是一个类似Transformer的小型模型,以因果方式工作,就像LLM一样。这让我们能够KV缓存所有过去的信息,并为每个新帧执行简单的自回归解码前向传播。在分享的视频中,该模型是一个0.4B参数版本,存在一些显著问题,如运动不佳、奇怪闪烁和上下文问题。它实时接收我给出的键盘操作,并在前向传播中使用。(但没有无分类器引导)。我现在正在训练下一个迭代,一个0.8B模型。顺便说一句,我还没有进行量化,这可以节省大量时间。bf16速度很慢。
相似文章
突破Transformer僵局:一款在消费级硬件上运行的本地优先3D点云认知引擎
介绍SHD-CCP v2.0,这是一种新颖的AI架构,它用3D点云数据结构替代Transformer令牌序列,采用格拉斯曼流形融合和零拷贝内存映射流式处理,在消费级硬件上实现低延迟和低内存占用。
我设计了一种方法,用于(自主地)在单个消费级GPU上训练Transformer语言模型。
一种在单个消费级GPU上自主训练Transformer语言模型的方法,分为六个阶段,设有验证门和AGENTS.md规范,适用于OpenClaw等编排框架。
能将任意图像转化为可玩幻觉的扩散模型!但本地运行,非数据中心
一种扩散模型,能将任意图像转化为交互式可玩幻觉,在用户本地硬件上运行。
RF-DETR:面向实时检测Transformer的神经架构搜索
RF-DETR提出了一种轻量级检测Transformer,通过权重共享神经架构搜索实现最先进的实时目标检测,在COCO和Roboflow100-VL上优于先前方法,同时运行速度快达20倍。
@xuanchi13: 潜在vs像素的争论没有抓住要点。GPT Image 2 展示了用户注意到的:像素级保真度。潜在模型...
NVIDIA 推出了 PiD,一种 Pixel Diffusion Decoder,用其替换潜在扩散模型中的传统 VAE/RAE 解码器,实现快速高分辨率解码,速度提升高达 6 倍,并改进了视觉保真度。