gpt-2

#gpt-2

GPT-2 过于危险，不宜发布

Reddit r/singularity ↗ · 6小时前

OpenAI 开发了 GPT-2 语言模型，但认为其可能被滥用，过于危险，因此未向公众发布。

0 人收藏 0 人点赞

#gpt-2

当前世界模型缺乏持久状态核心

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

本文认为当前世界模型缺乏持久状态核心，提出一种混合方法，通过η-伪酉算子动力学添加时间因果结构，将预训练的GPT-2转化为时间推理模型。

0 人收藏 0 人点赞

#gpt-2

无中生有：语言模型能否发现零？

arXiv cs.AI ↗ · 2026-06-17 缓存

本文探讨了语言模型能否独立发现零的概念，作为分布外泛化的一种形式。研究发现，GPT-2大小的模型在测试时无法做到，但通过零的示例训练后会有显著提升，并且语言预训练减少了所需示例的数量。

0 人收藏 0 人点赞

#gpt-2

显微镜下的数据流形

Hugging Face Daily Papers ↗ · 2026-06-14 缓存

本文研究了使用η-伪幺正算子动力学将预训练的GPT-2转换为时间推理模型，提供了数学基础以及在PT对称性破缺转变和可逆/不可逆序列方面的关键发现。

0 人收藏 0 人点赞

#gpt-2

GPT-2以来AI模型发展时间线：模型发布速度不断加快

Reddit r/ArtificialInteligence ↗ · 2026-06-01

一篇记录自GPT-2以来AI模型发布时间线的文章，强调了模型发布速度不断加快的趋势。

0 人收藏 0 人点赞

#gpt-2

MechRL：强化学习代理用于机制可解释性中的电路发现

arXiv cs.LG ↗ · 2026-05-27 缓存

提出了 MechRL，一种利用强化学习自动发现 transformer 语言模型中电路的方案。经过多任务训练的 PPO 代理发现了与已知典型电路匹配的注意力头电路，并能泛化到一项保留任务上。

0 人收藏 0 人点赞

#gpt-2

我构建了一个工具，能实时展示GPT-2在生成文本时的“思维”过程：每个令牌的概念激活3D图 [R]

Reddit r/MachineLearning ↗ · 2026-05-19

一位开发者构建了AXON，该工具利用稀疏自编码器将GPT-2的内部概念激活可视化为实时3D力导向图，使用户能够在令牌生成前看到可解释特征的激活情况。

0 人收藏 0 人点赞

#gpt-2

@Modular: MAX-LLM 书籍让从零开始构建 LLM 变得更加简单。新的笔记本格式让你可以运行 GPT-2 …

X AI KOLs Following ↗ · 2026-05-14 缓存

MAX-LLM 书籍现在提供交互式 Jupyter 笔记本，逐步指导用户使用 MAX 框架从零开始构建完整的 GPT-2 实现，使用户能够探索张量形状、运行组件并生成文本。

0 人收藏 0 人点赞

#gpt-2

我们能否定位并防止LLM中的刻板印象？

arXiv cs.CL ↗ · 2026-04-23 缓存

arXiv预印本在GPT-2 Small与Llama 3.2中定位编码刻板印象的神经元与注意力头，显示偏见集中在少数神经元子集，但消融它们几乎无法减少带偏文本生成。

0 人收藏 0 人点赞

#gpt-2

GPT Image 2 的游戏梗图潜力炸裂

Reddit r/singularity ↗ · 2026-04-21

用户发现 GPT Image 2 在生成游戏专属梗图方面表现惊人。

0 人收藏 0 人点赞

#gpt-2

Transformer Explainer：交互式学习文本生成模型

Papers with Code Trending ↗ · 2024-08-08 缓存

Transformer Explainer 是一个交互式可视化工具，让非专业人士能够通过浏览器中的实时实验和可视化，理解 GPT-2 模型的内部工作机制。

0 人收藏 0 人点赞

#gpt-2

Image GPT

OpenAI Blog ↗ · 2020-06-17 缓存

OpenAI的Image GPT（iGPT）将GPT-2 Transformer应用于像素序列，用于图像生成和分类。它展示了用于语言处理的相同架构能够以无监督的方式学习连贯的视觉特征，并在图像分类基准测试中实现具有竞争力的性能。

0 人收藏 0 人点赞

#gpt-2

GPT-2: 1.5B 版本发布

OpenAI Blog ↗ · 2019-11-05 缓存

OpenAI 发布了 GPT-2 1.5B 参数模型，附带了人类对可信度感知的分析、通过在极端意识形态微调进行滥用的潜在风险，以及检测合成文本的挑战。检测模型达到约 95% 的准确率，但在实际部署中需要配套方法。

0 人收藏 0 人点赞

#gpt-2

基于人类偏好微调GPT-2

OpenAI Blog ↗ · 2019-09-19 缓存

OpenAI展示了使用人类偏好反馈对GPT-2（774M参数）进行微调，用于文本续写和摘要任务，风格任务需要5000个标签，摘要任务需要60000个标签，模型达到了86-88%的人类偏好率，但揭示了标注者启发式利用的问题。

0 人收藏 0 人点赞

#gpt-2

GPT-2: 6个月后续跟进

OpenAI Blog ↗ · 2019-08-20 缓存

OpenAI 讨论了他们对 GPT-2 发布的6个月后续跟进，概述了在未来几个月内发布 1558M 参数模型的计划，并强调分阶段发布和基于合作伙伴关系的共享是负责任的 AI 发布的关键。

0 人收藏 0 人点赞

#gpt-2

更好的语言模型及其影响

OpenAI Blog ↗ · 2019-02-14 缓存

OpenAI 推出 GPT-2，这是一个拥有 15 亿参数的基于 Transformer 的语言模型，在 40GB 的互联网文本上进行训练，在语言建模基准上达到了最先进的性能，并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑，仅公开发布了较小的模型和技术论文，而非完整的训练模型。

0 人收藏 0 人点赞

gpt-2

提交意见反馈