标签
百度发布了Unlimited-OCR,它可以一次性处理整个文档而无需分块,克服了当前OCR技术的一个主要限制。
Lite Any Stereo V2 提出了一种高效的立体匹配方法,通过优化的架构和训练策略(包括仅2D成本聚合框架和三阶段训练策略),在显著降低延迟的同时实现了最先进的精度。
本文详细介绍了 LoRA 及其变体(QLoRA、VeRA、DoRA)的原理,解释了如何通过低秩分解减少可训练参数,实现高效微调大型模型。
对里程碑式论文《Attention Is All You Need》的反思,着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能,并催生了像GPT和Claude这样的现代大语言模型。
本文介绍了Tapered Language Models (TLMs),一种架构原则,将更多参数分配给早期层,更少分配给后期层,在不增加额外成本的情况下,持续改善多种架构的困惑度和下游性能。
推荐了2026年学习AI的15个YouTube频道,按学习阶段分类排序,并给出新手、工程项目、前沿趋势的学习路径建议。
关于矩阵循环单元(MRU)的更新,这是一种线性时间复杂度的注意力机制替代方案。作者探索了稳定训练的方法,发现正交矩阵表现不佳,而LDU分解效果最佳,并表明MRU在TinyStories等较大数据集上表现不如Transformer。
一篇关于知识蒸馏的教育性概述,涵盖其历史、核心概念(如softmax和温度)、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。
一个涵盖LLM内部原理的全面15部分系列,从分词到服务部署,基于Gemma 4 12B的实际配置。
本文提出了eCNNTO,一种带有残差连接的卷积神经网络,通过从早期迭代历史中预测接近最优的密度来加速基于密度的拓扑优化,实现了最多97%的迭代次数减少,并在不同边界条件、几何形状和网格分辨率下展现出强大的泛化能力。
介绍 ITNet,一种基于可学习积分变换的神经网络架构,统一了卷积、注意力与递归,在多种模态上取得了强劲结果。
David Ha和Jürgen Schmidhuber回顾了诸如Transformer、无监督预训练、知识蒸馏和残差网络等基础深度学习技术是如何在1991年的慕尼黑开创的,为当前的人工智能热潮奠定了基础。
作者解释了算子融合是torch.compile加速的关键机制,并提供了一个仅500行的Python最小实现及配套的笔记作为教学工具。
一条推文推荐了一份免费的深度学习资源,包含68个交互式Python笔记本,内容从基础知识到GANs、扩散模型等先进技术,非常适合自学者。
提出了一种基于Wasserstein-GAN的方法,用于传感器引起的分布漂移的无监督校准,并在跟踪探测器玩具模型和带有老化效应的模拟量能器数据上进行了验证。
本文研究在交叉熵损失下,权重范数是直接控制神经网络中的grokking延迟,还是其效果通过对数几率尺度和softmax饱和来中介。实验表明,延迟几乎完全由有效对数几率尺度解释,权重范数的贡献微乎其微。
关于基于AI的土壤湿度估计与分类模型的结构化综述,涵盖统计时间序列、地统计学、经典机器学习、深度学习以及概率/贝叶斯方法。
本文介绍QG-MIL,一种门控Transformer聚合器,缓解了医学影像多实例学习中的注意力集中问题,无需辅助损失即可实现领域无关的性能。
探讨了让AI系统像人类阅读教科书一样从文档中发展深层专业知识的挑战,强调了一种持续学习的形式。