将任意图像转化为可玩游戏的深度神经网络!全部在消费级GPU上运行,而非数据中心

Reddit r/artificial 模型

摘要

作者介绍了一个小型基于Transformer的神经网络,从零开始训练,能够将任意图像转化为可玩游戏,在RTX 5090等消费级GPU上实时运行。该模型使用自回归解码和KV缓存,但目前存在运动和上下文问题。

大家好!!我真的很想分享我正在研究的成果。我想构建一个能够模拟游戏的神经网络,或者至少开始尝试。大多数视频生成器太大,无法在消费级硬件上实时运行,因此我从零开始设计了一个模型。没有微调之类的废话。核心的去噪网络完全从零开始训练,以支持这一目标。从图像到游戏数据。上面的视频是在RTX 5090上运行的。这个神经网络是一个类似Transformer的小型模型,以因果方式工作,就像LLM一样。这让我们能够KV缓存所有过去的信息,并为每个新帧执行简单的自回归解码前向传播。在分享的视频中,该模型是一个0.4B参数版本,存在一些显著问题,如运动不佳、奇怪闪烁和上下文问题。它实时接收我给出的键盘操作,并在前向传播中使用。(但没有无分类器引导)。我现在正在训练下一个迭代,一个0.8B模型。顺便说一句,我还没有进行量化,这可以节省大量时间。bf16速度很慢。
查看原文

相似文章