neural-networks

标签

Cards List
#neural-networks

@kmeanskaran: 今天平衡ML和AI的最佳方法:> Python(特别是Pydantic)> 神经网络基础 > RNN, LSTM, …

X AI KOLs Timeline · 2026-06-10 缓存

Karan(@kmeanskaran)的一条推文,概述了平衡ML和AI的学习路线,涵盖Python、神经网络、NLP、LLMs、部署和智能体AI,并附有Amit寻求初学者指导的回复。

0 人收藏 0 人点赞
#neural-networks

通过相变的涌现:机制景观与复杂系统中的通用收敛

arXiv cs.LG · 2026-06-09 缓存

本文介绍了层次涌现框架(HEF),该框架解释了在物理和信息约束下,通过机制景观中的相变,神经网络和生物进化等多样系统如何收敛到相似的内部表示。该框架通过111个grokking实验进行了实证验证,这些实验确认了通用收敛,并识别出一个临界能量阈值。

0 人收藏 0 人点赞
#neural-networks

Flatland:大步长梯度下降的冒险

arXiv cs.LG · 2026-06-08 缓存

本文探讨了在非L-光滑目标上梯度下降收敛的最大步长这一开放问题,引入了在稳定性边缘运行且能够全局最小化尖锐度的自适应方法。

0 人收藏 0 人点赞
#neural-networks

FP8注意力中的P-Cast精度:凹陷引发的崩溃与S=2^8的最优性

arXiv cs.AI · 2026-06-08 缓存

本文分析了在将softmax输出转换为FP8(E4M3)时,由于注意力凹陷现象导致的FP8注意力精度损失。它表明正向KV迭代会导致非凹陷注意力值下溢,并提出反向迭代和静态缩放因子S=256来消除下溢,实现了3-10倍的MSE改进。

0 人收藏 0 人点赞
#neural-networks

@jakevin7: 现在所有人都在聊 AI,但很少有人知道,这个领域的奠基人曾经被整个世界当成疯子扔掉。 Geoffrey Hinton 在 2024 年拿了诺贝尔物理学奖。 有记者问他:你等了多少年? 他说:大概四十年。 1969 年,神经网络被一本书干死…

X AI KOLs Following · 2026-06-08 缓存

本文回顾了 Geoffrey Hinton 在神经网络被学术界抛弃的 AI 寒冬中坚持研究长达三十年,最终凭借 AlexNet 在 2012 年 ImageNet 大赛中一举成名,并在 2024 年获得诺贝尔物理学奖的历程。

0 人收藏 0 人点赞
#neural-networks

@zhaisf: 这是 @geoffreyhinton 提出的蒸馏方法的一些神奇结果,当我第一次看到它们时,真的让我震惊,而且……

X AI KOLs Following · 2026-06-07 缓存

本文讨论了模型蒸馏对训练分布的惊人鲁棒性,即使与目标分布的重叠很小,以及其对在线/离线策略蒸馏的影响。

0 人收藏 0 人点赞
#neural-networks

@incrementaliser:刚看完@ChrisGPotts 的一场精彩演讲——“在大型语言模型中寻找语言结构”,我现在完全相信……

X AI KOLs Following · 2026-06-06

一条推文重点介绍了 Chris Potts 关于大型语言模型如何学习语言结构的演讲,进一步强化了 LLM 能够捕捉句法和语义的观点。

0 人收藏 0 人点赞
#neural-networks

Transformers 本质上是简洁的

Hacker News Top · 2026-06-05 缓存

本文认为 Transformer 架构本质上是简洁的,意味着它们比其他模型能更高效地表示某些函数。本文提供了理论分析和证明。

0 人收藏 0 人点赞
#neural-networks

探索视觉嵌入

Hacker News Top · 2026-06-05 缓存

本文通过生成与特定嵌入方向对应的图像,利用梯度优化和增强策略来反转模型,探索了DINOv3视觉嵌入。

0 人收藏 0 人点赞
#neural-networks

交换关联泛函的导数信息学习

arXiv cs.LG · 2026-06-04 缓存

这篇ICML 2026论文介绍了Derivative Informed XC-Loss(DI-Loss),这是一种用于机器学习交换关联泛函的训练方法,它在密度矩阵的格拉斯曼流形上引入了一阶和二阶导数监督。在四种架构上,与仅使用能量和密度监督相比,DI-Loss将总能量平均绝对误差(MAE)降低了66%,并改善了TDDFT计算中的激发态预测。

0 人收藏 0 人点赞
#neural-networks

从离散到连续:连续环境中神经强化学习的动力学

arXiv cs.LG · 2026-06-04 缓存

本文提出了一个用于连续环境中深度强化学习的理论框架,利用随机控制理论将其建模为连续时间随机过程。作者刻画了在两层网络无限宽极限下的演员-评论家算法的动力学,并推导了一个在极小的学习率下状态分布无穷小变化的方程。

0 人收藏 0 人点赞
#neural-networks

从具体到抽象的人工智能:向大众揭开人工智能的神秘面纱

arXiv cs.AI · 2026-06-04 缓存

本文介绍了一种名为 AIcon2abs 的方法论,该方法结合了可视化编程与 WiSARD 无权重神经网络,通过动手实践活动帮助普通大众(包括儿童)理解人工智能概念。该方法将训练与分类作为一等编程构件,使学习型机器与传统程序之间的区别更加直观易懂。

0 人收藏 0 人点赞
#neural-networks

"它们是由权重构成的"

Hacker News Top · 2026-06-03 缓存

一段创意对话探讨了大语言模型本质上只是权重矩阵的观点,挑战了关于理解和意识的概念。

0 人收藏 0 人点赞
#neural-networks

Curatube:一个无干扰的YouTube播放列表界面,专为专注学习而设计

Lobsters Hottest · 2026-06-03 缓存

Curatube是一个无干扰的YouTube播放列表界面,旨在帮助专注学习。目前它收录了Andrej Karpathy的《神经网络:从零到英雄》课程。

0 人收藏 0 人点赞
#neural-networks

神经网络可证明学习群组合的谱表示

arXiv cs.LG · 2026-06-03 缓存

本文从理论上证明,在群组合任务上训练的两层神经网络可以学习谱表示,其中神经元收敛到不可约表示并实现旋转秩一对齐,为特征学习提供了表示论的解释。

0 人收藏 0 人点赞
#neural-networks

神经网络损失景观的谱渐近:曲率指数的精确分解

arXiv cs.LG · 2026-06-03 缓存

本文提出了神经网络损失景观中曲率指数α的精确分解,解释了为何该指数在不同层类型间存在差异。引入了谱对齐分解,并导出了一个谱传递恒等式,连接曲率、梯度秩衰减和Hessian指数,该恒等式已在多种架构和数据集上得到验证。

0 人收藏 0 人点赞
#neural-networks

神经网络可证明地学习群组合的谱表示

Hugging Face Daily Papers · 2026-06-02

本文提供了神经网络在群组合任务中学习结构化表示的理论分析,证明了训练动态驱动神经元以指数收敛速度收敛到不可约群表示。该工作建立了特征学习的表示理论解释,并刻画了矩阵值群表示的低秩压缩现象。

0 人收藏 0 人点赞
#neural-networks

@ChrisGPotts:我们理所当然地认为更大的模型比小的更好,但为什么会这样?我们的新论文,由Jing Hua领导……

X AI KOLs Following · 2026-06-01 缓存

本文探讨了为什么更大的模型性能优于较小的模型,通过形式化分析和实验将其归因于数据引发的神经资源竞争。

0 人收藏 0 人点赞
#neural-networks

@antoniolupetti: "计算神经网络梯度"是对反向传播和梯度计算背后数学的清晰介绍…

X AI KOLs Timeline · 2026-06-01 缓存

斯坦福CS224N课程笔记清晰地介绍了神经网络中反向传播和梯度计算的数学原理,涵盖链式法则、计算图和向量化导数。

0 人收藏 0 人点赞
#neural-networks

面向预测涡轮燃气温度退化的机器学习不确定性量化方法基准测试

arXiv cs.LG · 2026-06-01 缓存

本文对五种用于神经网络预测涡轮燃气温度的不确定性量化方法进行了基准测试,评估了它们在覆盖范围、宽度和稳定性方面的权衡,以指导发动机的预测与健康管理。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈