标签
本文认为当前世界模型缺乏持久状态核心,提出一种混合方法,通过η-伪酉算子动力学添加时间因果结构,将预训练的GPT-2转化为时间推理模型。
本文探讨了语言模型能否独立发现零的概念,作为分布外泛化的一种形式。研究发现,GPT-2大小的模型在测试时无法做到,但通过零的示例训练后会有显著提升,并且语言预训练减少了所需示例的数量。
本文研究了使用η-伪幺正算子动力学将预训练的GPT-2转换为时间推理模型,提供了数学基础以及在PT对称性破缺转变和可逆/不可逆序列方面的关键发现。
提出了 MechRL,一种利用强化学习自动发现 transformer 语言模型中电路的方案。经过多任务训练的 PPO 代理发现了与已知典型电路匹配的注意力头电路,并能泛化到一项保留任务上。
一位开发者构建了AXON,该工具利用稀疏自编码器将GPT-2的内部概念激活可视化为实时3D力导向图,使用户能够在令牌生成前看到可解释特征的激活情况。
MAX-LLM 书籍现在提供交互式 Jupyter 笔记本,逐步指导用户使用 MAX 框架从零开始构建完整的 GPT-2 实现,使用户能够探索张量形状、运行组件并生成文本。
arXiv预印本在GPT-2 Small与Llama 3.2中定位编码刻板印象的神经元与注意力头,显示偏见集中在少数神经元子集,但消融它们几乎无法减少带偏文本生成。
Transformer Explainer 是一个交互式可视化工具,让非专业人士能够通过浏览器中的实时实验和可视化,理解 GPT-2 模型的内部工作机制。
OpenAI的Image GPT(iGPT)将GPT-2 Transformer应用于像素序列,用于图像生成和分类。它展示了用于语言处理的相同架构能够以无监督的方式学习连贯的视觉特征,并在图像分类基准测试中实现具有竞争力的性能。
OpenAI 发布了 GPT-2 1.5B 参数模型,附带了人类对可信度感知的分析、通过在极端意识形态微调进行滥用的潜在风险,以及检测合成文本的挑战。检测模型达到约 95% 的准确率,但在实际部署中需要配套方法。
OpenAI展示了使用人类偏好反馈对GPT-2(774M参数)进行微调,用于文本续写和摘要任务,风格任务需要5000个标签,摘要任务需要60000个标签,模型达到了86-88%的人类偏好率,但揭示了标注者启发式利用的问题。
OpenAI 讨论了他们对 GPT-2 发布的6个月后续跟进,概述了在未来几个月内发布 1558M 参数模型的计划,并强调分阶段发布和基于合作伙伴关系的共享是负责任的 AI 发布的关键。
OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。