deep-learning

#deep-learning

@ErickSky: 百度刚刚打破了当前OCR最大的限制之一。Unlimited-OCR一次性处理整个文档…

X AI KOLs Timeline ↗ · 4天前缓存

百度发布了Unlimited-OCR，它可以一次性处理整个文档而无需分块，克服了当前OCR技术的一个主要限制。

0 人收藏 0 人点赞

#deep-learning

Lite Any Stereo V2：更快更强的高效零样本立体匹配

Hugging Face Daily Papers ↗ · 4天前缓存

Lite Any Stereo V2 提出了一种高效的立体匹配方法，通过优化的架构和训练策略（包括仅2D成本聚合框架和三阶段训练策略），在显著降低延迟的同时实现了最先进的精度。

0 人收藏 0 人点赞

#deep-learning

带注释的 PyTorch 训练循环

Hacker News Top ↗ · 4天前缓存

一份构建正确 PyTorch 训练循环的详细指南，重点介绍常见错误和正确的操作顺序。

0 人收藏 0 人点赞

#deep-learning

@0xSero: Highly recommended educational content. LoRA is one of the coolest things to dabble in, lets anyone fine tune models re…

X AI KOLs Timeline ↗ · 5天前缓存

本文详细介绍了 LoRA 及其变体（QLoRA、VeRA、DoRA）的原理，解释了如何通过低秩分解减少可训练参数，实现高效微调大型模型。

0 人收藏 0 人点赞

#deep-learning

Attention Is All You Need

Reddit r/ArtificialInteligence ↗ · 5天前

对里程碑式论文《Attention Is All You Need》的反思，着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能，并催生了像GPT和Claude这样的现代大语言模型。

0 人收藏 0 人点赞

#deep-learning

Tapered Language Models

Hugging Face Daily Papers ↗ · 5天前缓存

本文介绍了Tapered Language Models (TLMs)，一种架构原则，将更多参数分配给早期层，更少分配给后期层，在不增加额外成本的情况下，持续改善多种架构的困惑度和下游性能。

0 人收藏 0 人点赞

#deep-learning

@PandaTalk8: 2026 年学习 AI 最值得关注的 YouTube 频道，拒绝废话版。收藏起来，按这个顺序学： 1. 3Blue1Brown AI / 数学基础。用可视化方式讲清楚线性代数、神经网络和底层数学直觉。 https://youtube.c…

X AI KOLs Timeline ↗ · 5天前缓存

推荐了2026年学习AI的15个YouTube频道，按学习阶段分类排序，并给出新手、工程项目、前沿趋势的学习路径建议。

1 人收藏 1 人点赞

#deep-learning

关于矩阵循环单元（一种注意力机制的替代方案）的更新 [R]

Reddit r/MachineLearning ↗ · 6天前

关于矩阵循环单元（MRU）的更新，这是一种线性时间复杂度的注意力机制替代方案。作者探索了稳定训练的方法，发现正交矩阵表现不佳，而LDU分解效果最佳，并表明MRU在TinyStories等较大数据集上表现不如Transformer。

0 人收藏 0 人点赞

#deep-learning

@TheTuringPost: https://x.com/TheTuringPost/status/2068474648925216861

X AI KOLs Timeline ↗ · 6天前缓存

一篇关于知识蒸馏的教育性概述，涵盖其历史、核心概念（如softmax和温度）、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。

0 人收藏 0 人点赞

#deep-learning

我写了一个免费的15部分系列文章，讲解LLM内部原理——真实的数学、真实的张量形状、真实的硬件限制。全部基于Gemma 4 12B的实际配置。

Reddit r/LocalLLaMA ↗ · 2026-06-20

一个涵盖LLM内部原理的全面15部分系列，从分词到服务部署，基于Gemma 4 12B的实际配置。

0 人收藏 0 人点赞

#deep-learning

eCNNTO：一种高度可泛化的卷积网络，用于加速拓扑优化

arXiv cs.AI ↗ · 2026-06-20 缓存

本文提出了eCNNTO，一种带有残差连接的卷积神经网络，通过从早期迭代历史中预测接近最优的密度来加速基于密度的拓扑优化，实现了最多97%的迭代次数减少，并在不同边界条件、几何形状和网格分辨率下展现出强大的泛化能力。

0 人收藏 0 人点赞

#deep-learning

ITNet：一种可学习的积分变换，统一了卷积、注意力与递归

arXiv cs.AI ↗ · 2026-06-20 缓存

介绍 ITNet，一种基于可学习积分变换的神经网络架构，统一了卷积、注意力与递归，在多种模态上取得了强劲结果。

0 人收藏 0 人点赞

#deep-learning

慕尼黑1991：当前人工智能热潮的根源

Hacker News Top ↗ · 2026-06-19 缓存

David Ha和Jürgen Schmidhuber回顾了诸如Transformer、无监督预训练、知识蒸馏和残差网络等基础深度学习技术是如何在1991年的慕尼黑开创的，为当前的人工智能热潮奠定了基础。

0 人收藏 0 人点赞

#deep-learning

尽管有高度优化的NumPy函数，torch.compile()如何实现大幅加速？[D]

Reddit r/MachineLearning ↗ · 2026-06-19

作者解释了算子融合是torch.compile加速的关键机制，并提供了一个仅500行的Python最小实现及配套的笔记作为教学工具。

0 人收藏 0 人点赞

#deep-learning

@0x0SojalSec: 这份免费的深度学习资源太棒了，兄弟，非常适合自学者。68个交互式Python笔记本。它是……

X AI KOLs Timeline ↗ · 2026-06-19 缓存

一条推文推荐了一份免费的深度学习资源，包含68个交互式Python笔记本，内容从基础知识到GANs、扩散模型等先进技术，非常适合自学者。

0 人收藏 0 人点赞

#deep-learning

利用Wasserstein对抗学习纠正传感器引起的分布漂移

arXiv cs.LG ↗ · 2026-06-18 缓存

提出了一种基于Wasserstein-GAN的方法，用于传感器引起的分布漂移的无监督校准，并在跟踪探测器玩具模型和带有老化效应的模拟量能器数据上进行了验证。

0 人收藏 0 人点赞

#deep-learning

Grokking中权重范数控制什么？交叉熵下的对数几率尺度中介作用

arXiv cs.LG ↗ · 2026-06-18 缓存

本文研究在交叉熵损失下，权重范数是直接控制神经网络中的grokking延迟，还是其效果通过对数几率尺度和softmax饱和来中介。实验表明，延迟几乎完全由有效对数几率尺度解释，权重范数的贡献微乎其微。

0 人收藏 0 人点赞

#deep-learning

基于数据驱动的土壤湿度回归与分类模型综述

arXiv cs.LG ↗ · 2026-06-18 缓存

关于基于AI的土壤湿度估计与分类模型的结构化综述，涵盖统计时间序列、地统计学、经典机器学习、深度学习以及概率/贝叶斯方法。

0 人收藏 0 人点赞

#deep-learning

QG-MIL：用于医学影像领域无关多实例学习的门控Transformer聚合器

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

本文介绍QG-MIL，一种门控Transformer聚合器，缓解了医学影像多实例学习中的注意力集中问题，无需辅助损失即可实现领域无关的性能。

0 人收藏 0 人点赞

#deep-learning

@lateinteraction: 对 @jacobli99 的这项工作感到非常兴奋！我们对当前智能体在新领域获取专业知识的方式感到失望…

X AI KOLs Following ↗ · 2026-06-17 缓存

探讨了让AI系统像人类阅读教科书一样从文档中发展深层专业知识的挑战，强调了一种持续学习的形式。

0 人收藏 0 人点赞

deep-learning

提交意见反馈