将任意图像转化为可玩游戏的深度神经网络！全部在消费级GPU上运行，而非数据中心

Reddit r/artificial 2026/05/30 06:30 模型

image-to-game game-simulation transformer consumer-gpu autoregressive research real-time

摘要

作者介绍了一个小型基于Transformer的神经网络，从零开始训练，能够将任意图像转化为可玩游戏，在RTX 5090等消费级GPU上实时运行。该模型使用自回归解码和KV缓存，但目前存在运动和上下文问题。

大家好！！我真的很想分享我正在研究的成果。我想构建一个能够模拟游戏的神经网络，或者至少开始尝试。大多数视频生成器太大，无法在消费级硬件上实时运行，因此我从零开始设计了一个模型。没有微调之类的废话。核心的去噪网络完全从零开始训练，以支持这一目标。从图像到游戏数据。上面的视频是在RTX 5090上运行的。这个神经网络是一个类似Transformer的小型模型，以因果方式工作，就像LLM一样。这让我们能够KV缓存所有过去的信息，并为每个新帧执行简单的自回归解码前向传播。在分享的视频中，该模型是一个0.4B参数版本，存在一些显著问题，如运动不佳、奇怪闪烁和上下文问题。它实时接收我给出的键盘操作，并在前向传播中使用。（但没有无分类器引导）。我现在正在训练下一个迭代，一个0.8B模型。顺便说一句，我还没有进行量化，这可以节省大量时间。bf16速度很慢。

查看原文

将任意图像转化为可玩游戏的深度神经网络！全部在消费级GPU上运行，而非数据中心

相似文章

突破Transformer僵局：一款在消费级硬件上运行的本地优先3D点云认知引擎

我设计了一种方法，用于（自主地）在单个消费级GPU上训练Transformer语言模型。

能将任意图像转化为可玩幻觉的扩散模型！但本地运行，非数据中心

RF-DETR：面向实时检测Transformer的神经架构搜索

@xuanchi13: 潜在vs像素的争论没有抓住要点。GPT Image 2 展示了用户注意到的：像素级保真度。潜在模型...

提交意见反馈