神经 GPU 的扩展与局限性

OpenAI Blog 论文

摘要

本文探讨了神经 GPU 模型的扩展与局限性,通过课程设计和规模扩展展示了改进方案,使其能够学习十进制数和长表达式的算术运算,同时识别出对称输入上的失败模式,这些模式类似于对抗样本。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:44

# 神经GPU的扩展和局限 来源:https://openai.com/index/extensions-and-limitations-of-the-neural-gpu/ ## 摘要 神经GPU是一个最近提出的模型,它能够学习多位二进制加法和二进制乘法等算法,并能泛化到任意长度的输入。我们展示了两种改进神经GPU性能的简单方法:精心设计课程学习,以及增加模型规模。后者需要高效的内存实现,因为朴素的神经GPU实现内存密集。我们发现这些技术扩大了神经GPU能解决的算法问题集合:我们已经能够学会执行所有算术运算(并泛化到任意长的数字),当参数以十进制表示时(令人惊讶的是,之前无法做到)。我们还能够训练神经GPU来计算包含多个操作数的长算术表达式,需要遵守运算符优先级,尽管这些仅在二进制表示中成功,精度不完美。此外,通过研究神经GPU的失败模式,我们获得了对其的深入理解。我们发现能够正确泛化到任意长数字的神经GPU仍然在高度对称的非典型输入上计算失败:例如,一个神经GPU在十进制乘法上可以达到接近完美的泛化(最多100位数字),但在000000...002×000000...002上失败,而在2×2上成功。这些失败模式让人想起对抗样本。

相似文章

Block-sparse GPU kernels

OpenAI Blog

OpenAI 发布 block-sparse GPU kernels,这是一款用于在 GPU 上进行高效稀疏矩阵乘法的工具,可以减少神经网络操作的计算量和内存占用。