Transformer Explainer：交互式学习文本生成模型

Papers with Code Trending 2024/08/08 17:49 论文

interactive-visualization transformer gpt-2 education open-source tool

摘要

Transformer Explainer 是一个交互式可视化工具，让非专业人士能够通过浏览器中的实时实验和可视化，理解 GPT-2 模型的内部工作机制。

Transformers 彻底改变了机器学习，但其内部机制仍然难以理解。我们推出了 Transformer Explainer，这是一个交互式可视化工具，专为非专业人士设计，通过 GPT-2 模型学习 Transformer。我们的工具通过整合模型概览，并实现数学运算和模型结构在不同抽象层次之间的平滑过渡，帮助用户理解复杂的 Transformer 概念。它可以在用户浏览器中本地运行一个实时的 GPT-2 实例，使用户能够用自己的输入进行实验，并实时观察 Transformer 的内部组件和参数如何协同工作来预测下一个 token。我们的工具无需安装或特殊硬件，拓宽了公众对现代生成式 AI 技术的教育普及。我们的开源工具可在 https://poloclub.github.io/transformer-explainer/ 获取。视频演示见 https://youtu.be/ECR4oAwocjs。

查看原文

查看缓存全文

缓存时间: 2026/05/16 00:22

论文页面 - Transformer Explainer: 文本生成模型的交互式学习

来源: https://huggingface.co/papers/2408.04619

摘要

Transformer Explainer 是一个交互式可视化工具，允许非专家通过在网络浏览器中进行实时实验和可视化来理解 GPT-2 模型的内部工作原理。

Transformers (https://huggingface.co/papers?q=Transformers) 已经革新了机器学习，但其内部工作方式对许多人来说仍然不透明。我们提出 Transformer Explainer，一个为非专家设计、通过 GPT-2 (https://huggingface.co/papers?q=GPT-2) 模型学习 Transformers 的交互式可视化工具。我们的工具通过整合模型概述 (https://huggingface.co/papers?q=model%20overview) 并支持在数学运算 (https://huggingface.co/papers?q=mathematical%20operations) 和模型结构 (https://huggingface.co/papers?q=model%20structures) 的不同抽象层次间平滑切换，帮助用户理解复杂的 Transformer 概念。它在用户浏览器中本地运行一个实时的 GPT-2 (https://huggingface.co/papers?q=GPT-2) 实例，让用户能够用自己的输入进行实验，并实时观察 Transformer 的内部组件和参数如何协作预测下一个 token。我们的工具无需安装或特殊硬件，拓宽了公众对现代生成式 AI 技术的教育途径。我们的开源工具可在 https://poloclub.github.io/transformer-explainer/ 获取。视频演示可在 https://youtu.be/ECR4oAwocjs 观看。

查看 arXiv 页面 (https://arxiv.org/abs/2408.04619) 查看 PDF (https://arxiv.org/pdf/2408.04619) 项目页面 (https://poloclub.github.io/transformer-explainer/) GitHub 7.45k (https://github.com/poloclub/transformer-explainer) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2408.04619)

在您的智能体中获取本论文：

hf papers read 2408\.04619

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型 0

没有模型链接到本论文

在模型 README.md 中引用 arxiv.org/abs/2408.04619 以从本页面链接。

引用本论文的数据集 0

没有数据集链接到本论文

在数据集 README.md 中引用 arxiv.org/abs/2408.04619 以从本页面链接。

引用本论文的 Space 0

没有 Space 链接到本论文

在 Space README.md 中引用 arxiv.org/abs/2408.04619 以从本页面链接。

包含本论文的集合 33

浏览包含本论文的 33 个集合 (https://huggingface.co/collections?paper=2408.04619)

相似文章

@AlphaSignalAI: 这个免费的交互式解释器刚刚揭示了GPT实际上是如何工作的。大多数人把Transformer当作魔法。你输入…

X AI KOLs Timeline

一个名为Transformer Explainer的免费交互式工具，在浏览器中运行实时GPT-2模型，通过桑基图和实时推理可视化Transformer的内部工作原理。

Transformer 数学探索器 [P]

Reddit r/MachineLearning

这个交互式工具通过数据流图可视化 Transformer 模型的数学基础，涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。

@NFTCPS: 天天喊着搞AI，结果你连Transformer是个啥都说不清？有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链…

X AI KOLs Timeline

一个GitHub开源项目，从零实现完整的GPT训练流程，包含数据预处理、预训练、SFT和RLHF后训练，全部基于原生PyTorch，适合想深入理解Transformer原理的开发者。

@sairahul1：没人告诉你GPT或Claude内部到底是什么。他们说“transformer”然后就略过了。这个仓库从头构建了一个……

X AI KOLs Timeline

一个仓库，从头构建transformer，不用高级库，解释注意力机制和完整训练流程，在免费Colab上一天内可训练。

更好的语言模型及其影响

OpenAI Blog

OpenAI 推出 GPT-2，这是一个拥有 15 亿参数的基于 Transformer 的语言模型，在 40GB 的互联网文本上进行训练，在语言建模基准上达到了最先进的性能，并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑，仅公开发布了较小的模型和技术论文，而非完整的训练模型。

论文页面 - Transformer Explainer: 文本生成模型的交互式学习

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Space 0

包含本论文的集合 33

相似文章

@AlphaSignalAI: 这个免费的交互式解释器刚刚揭示了GPT实际上是如何工作的。大多数人把Transformer当作魔法。你输入…

Transformer 数学探索器 [P]

@NFTCPS: 天天喊着搞AI，结果你连Transformer是个啥都说不清？ 有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链…

@sairahul1：没人告诉你GPT或Claude内部到底是什么。他们说“transformer”然后就略过了。这个仓库从头构建了一个……

更好的语言模型及其影响

提交意见反馈

@NFTCPS: 天天喊着搞AI，结果你连Transformer是个啥都说不清？有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链…