Show HN: 观看神经网络学习玩贪吃蛇

Hacker News Top 工具

摘要

一个基于网页的工具,可实时可视化神经网络(使用PPO算法)学习玩贪吃蛇,支持可配置参数和3D渲染。

浏览器内的PPO训练演示,由tinygrad实现:TinyJit -> WebGPU内核。<p>需要WebGPU支持。
查看原文
查看缓存全文

缓存时间: 2026/05/15 18:33

# tinyppo-snake 来源:https://ppo.gradexp.xyz/ ## 环境示例 空闲 ## 已训练策略的推演 0·trained0 griddelay40ms 参数实时更新等待第一个快照... 正在初始化3D渲染器... 步骤 #— 未加载张量 ## 配置运行 预设 空闲 尚无运行记录

相似文章

通过视频预训练学习玩 Minecraft

OpenAI Blog

OpenAI 推出了视频预训练(VPT),这是一种半监督方法,通过学习 70,000 小时的未标注人类游戏视频和少量标注数据集来训练神经网络玩 Minecraft。该模型使用原生人类界面(键盘和鼠标)学习复杂的序列任务,展示了制作钻石工具和柱子跳跃等能力,代表了朝向通用计算机使用代理的进步。

OpenAI Microscope

OpenAI Blog

OpenAI Microscope 是一个开源工具,能够系统地可视化常用视觉模型中的每个神经元,具备快速反馈循环和可链接的神经元,以支持可解释性研究。该平台将可视化时间从几分钟缩短到几秒,旨在使神经网络分析对研究社区更加易于访问。

Neural MMO: 大规模多智能体游戏环境

OpenAI Blog

Neural MMO 是由 OpenAI 开发的大规模多智能体游戏环境,使智能体能够在可配置的瓷砖世界中学习,包含资源竞争、生存机制和战斗交互。

学习的机器人

OpenAI Blog

# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述⁠\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟

可解释的教学示例

OpenAI Blog

研究表明,通过迭代训练师生神经网络,教师能学到可解释的教学策略,即选择或生成人类能够理解和有效学习的教学示例。