深度线性网络中的非线性计算

OpenAI Blog 论文

摘要

# 深度线性网络中的非线性计算 来源:[https://openai.com/index/nonlinear-computation-in-deep-linear-networks/](https://openai.com/index/nonlinear-computation-in-deep-linear-networks/) `` ``` 1x = tf.placeholder(dtype=tf.float32, shape=[batch_size,784]) 2y = tf.placeholder(dtype=tf.float32, shape=[batch_size,10]) 34w1 = tf.Variable(np.random.normal(scale=np.sqrt(2./784),size=[784,512]).astype(np.float32)) 5b1 = tf.Variable(np.zeros(512,dtype=np.float32)) 6w2 = tf.Variable(np.random

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:56

# 深层线性网络中的非线性计算 来源:https://openai.com/index/nonlinear-computation-in-deep-linear-networks/ `` `` 1x = tf.placeholder(dtype=tf.float32, shape=[batch_size,784])2y = tf.placeholder(dtype=tf.float32, shape=[batch_size,10])34w1 = tf.Variable(np.random.normal(scale=np.sqrt(2./784),size=[784,512]).astype(np.float32))5b1 = tf.Variable(np.zeros(512,dtype=np.float32))6w2 = tf.Variable(np.random.normal(scale=np.sqrt(2./512),size=[512,512]).astype(np.float32))7b2 = tf.Variable(np.zeros(512,dtype=np.float32))8w3 = tf.Variable(np.random.normal(scale=np.sqrt(2./512),size=[512,10]).astype(np.float32))9b3 = tf.Variable(np.zeros(10,dtype=np.float32))1011params = [w1,b1,w2,b2,w3,b3]12nr_params = sum([np.prod(p.get_shape().as_list()) for p in params])13scaling = 2**1251415def get_logits(par):16 h1 = tf.nn.bias_add(tf.matmul(x , par[0]), par[1]) / scaling17 h2 = tf.nn.bias_add(tf.matmul(h1, par[2]) , par[3] / scaling) 18 o = tf.nn.bias_add(tf.matmul(h2, par[4]), par[5]/ scaling)*scaling19return o ``

相似文章

通过稀疏电路理解神经网络

OpenAI Blog

OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。

大规模神经网络的训练技术

OpenAI Blog

OpenAI 展示了在分布式 GPU 集群上训练大规模神经网络的全面技术,涵盖数据并行、管道并行、张量并行和专家混合等方法,以克服工程和可扩展性挑战。

AI 和计算

OpenAI Blog

OpenAI 发布分析表明,自 2012 年以来,最大规模 AI 训练运行所使用的计算量以 3.4 个月的倍增周期呈指数级增长,累计增长 30 万倍,远远超过摩尔定律的增长速度。该分析预测这一趋势可能会继续,并呼吁增加学术 AI 研究经费以应对不断上升的计算成本。

AI 与效率

OpenAI Blog

# AI 与效率 来源: [https://openai.com/index/ai-and-efficiency/](https://openai.com/index/ai-and-efficiency/) 训练到 AlexNet 水平性能所需的总计算量(万亿浮点运算次/秒-天)。任意给定时间的最低计算点以蓝色显示,所有测量点以灰色显示。[2](https://openai.com/index/ai-and-efficiency/#citation-bottom-2),[5](https://openai.com/index/ai-and-efficiency/#citation-bottom-5),[6](https://openai.com/index/ai-and-efficiency/#citation-bottom-6),

用推理时计算换取对抗鲁棒性

OpenAI Blog

OpenAI 提出证据表明,像 o1 这样的推理模型在获得更多推理时计算来进行更深入思考时,对对抗攻击的抵抗力会增强。这项研究表明,增加计算量可以降低多种任务类型(包括数学、事实性和对抗性图像)的攻击成功率,尽管仍存在一些显著的例外。