标签
TILT提出了一种新颖的目标函数,用于在协变量偏移下进行无监督域适应,该函数对未标记目标数据上的辅助组件施加惩罚,隐式实现了具有有界估计量的自定位重要性加权。理论保证和在偏移CIFAR-100上的实验表明,目标域性能优于基线方法。
GoodfireAI发现,神经网络通过旋转形状进行数学运算,并在一个大语言模型中发现了一个旋转形状计算器,该计算器不仅用于数学。
Marcos Lopez de Prado 的康奈尔大学讲座分享了量化交易框架,该框架使用神经网络,正是 Jane Street 量化交易员所用的,潜在年收入可达75万美元。
本文介绍了 AGOP-Weighted,这是一种事后归因方法,它将每个样本的梯度乘以训练分布先验,以抑制噪声并突出重要像素,并在合成和逼真的基准测试中展示了相较于现有方法的显著改进。
杰弗里·辛顿警告称,AI 正在发展出非预期的能力,并在认知任务上超越人类,而本文提供了一份有效使用 Claude 的实用指南。
本文介绍了牛顿之灯,这是一种强化学习框架,用于微调热启动模型,以更高效地解决交流潮流问题,尤其是在接近电压崩溃的情况下。
本文介绍了 QuIDE 框架,该框架利用智能指数来评估量化神经网络在压缩、准确性和延迟之间的权衡。研究证明,最佳位宽因任务而异:对于大型语言模型(LLM)和简单任务,4-bit 是最理想的;而对于复杂的卷积神经网络(CNN),8-bit 则更为合适。
本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。
本文介绍了 MuFiNNs,这是一种层次化多保真度神经网络框架,旨在利用稀疏的实验数据预测三维火焰皱褶度和湍流燃烧速度。该方法将低保真度的物理趋势与高保真度修正相结合,从而在数据有限的燃烧状态下实现稳健的预测和外推。
本文介绍了 CDLinear,这是一种分块循环神经网络层,通过快速傅里叶变换对角化技术减少参数量并改善海森矩阵条件数,并在 MNIST 数据集上结合理论证明进行了验证。
本文探讨了将树突神经网络与均衡传播相结合,表明与标准均衡传播相比,这种具有生物学合理性的方法在具有挑战性的数据集上提高了性能。
本文提出了一种新颖的深度学习方法来预测微流控装置中的惯性升力,无需显式几何参数,与以前的模型相比,该方法能够更好地泛化到未见过的通道横截面。
TorchLean 是一款全新发布的 Lean 4 框架,可实现神经网络软件的形式化验证,具备类型化张量、可验证自动微分、PyTorch 互操作性及 GPU 执行等特性。此次发布进一步扩展了对扩散模型、GPT 风格 Transformer 和状态空间模型等现代架构的支持,将实际的机器学习工作流与数学证明检查紧密连接。
本文分析了 Jan Chorowski 提出的 BDH 架构方案,该方案探讨了一种替代传统 KV cache 的思路:利用稀疏高维 key-query 空间,将 LLM 的记忆直接嵌入到网络权重中。
作者批评了在使用 PyTorch 等高级库时缺乏对底层机制理解的现象,并推荐 Simon J.D. Prince 的笔记集合,以弥合语法应用与第一性原理工程实践之间的差距。
本文通过引入与机制对齐的白盒攻击代理 WB-Softmax,研究了流式神经架构模糊 ARTMAP 中的对抗鲁棒性。本文评估了渐进式训练和选择性更新策略,以在不进行数据重放的情况下提高鲁棒性,同时为结构性失效提供可解释的诊断。
作者详细介绍了在 Apple Silicon 上优化 Swift 自定义矩阵乘法内核以训练大语言模型的过程,旨在通过利用 CPU、SIMD、AMX 和 GPU 能力,实现超越 C 实现的性能。
推荐一个机器学习学习资源,该项目从数学第一原理推导经典算法,并通过 Jupyter Notebook 逐步实现和可视化训练过程,帮助学习者直观理解。
Satya Nadella 指出,Excel 正在通过直接在单元格中实现 SGD、注意力机制和下一个标记预测功能,变得“AI 完备”。