deep-learning

标签

Cards List
#deep-learning

RAVEN:一种面向金融时间序列预测的体制感知变上下文专家网络

arXiv cs.LG · 4小时前 缓存

本文提出了RAVEN,这是一种混合专家框架,能够自适应地为每个输入样本确定时间上下文窗口,以处理非平稳金融时间序列。该方法在金融和交通基准上取得了最先进的性能。

0 人收藏 0 人点赞
#deep-learning

快速与慢速变分持续学习

arXiv cs.LG · 4小时前 缓存

本文介绍了持续IVON(CoVON)优化器,它将快速和慢速适应整合到变分持续学习中,以平衡稳定性和可塑性,在领域增量学习、持续预训练以及大型语言模型的微调中优于现有方法。

0 人收藏 0 人点赞
#deep-learning

DREG:一种作为通用惩罚的逐层雅可比正则化

arXiv cs.LG · 4小时前 缓存

本文对导数正则化(DREG)惩罚进行了大规模实证研究,表明其在高精度和噪声鲁棒性方面表现优异,特别是使用GELU激活函数和数据稀缺场景,将其定位为神经网络的一种通用即插即用正则化器。

0 人收藏 0 人点赞
#deep-learning

ARIA: 基于自适应区域重要性分配的条件扩散蒸馏

arXiv cs.LG · 4小时前 缓存

本文介绍了ARIA框架,该框架自适应地在条件空间的各个区域分配训练资源,用于蒸馏条件扩散模型,从而提升在未见和低表征条件下的性能。

0 人收藏 0 人点赞
#deep-learning

利用时空图神经网络重建GRACE陆地水储量:南美洲应用

arXiv cs.LG · 4小时前 缓存

本文提出了一种深度学习的方法,使用时空图神经网络(MTGNN)重建南美洲自1940年以来的GRACE陆地水储量异常,实现了高精度,并且用更少的预测因子优于以往的方法。

0 人收藏 0 人点赞
#deep-learning

探索双元元学习以增强开放集场景下的域泛化

arXiv cs.LG · 4小时前 缓存

提出了一种名为MEDIC的新型元学习策略,用于开放集域泛化,该策略通过域和类别划分间的隐式梯度匹配来实现更优的边界。实验表明其性能达到最先进水平。

0 人收藏 0 人点赞
#deep-learning

利用深度学习进行具有不确定性意识的阿尔茨海默病进展纵向预测

arXiv cs.AI · 4小时前 缓存

本文提出了一种概率框架,用于阿尔茨海默病进展预测,该框架结合了有序诊断预测、多时间点轨迹生成和分解不确定性估计,采用 Temporal Fusion Transformer 编码器和自回归混合密度网络。在ADNI数据上,该模型优于基线,实现了接近标称的90%可信区间覆盖率,并提供了具有临床意义的不确定性信号。

0 人收藏 0 人点赞
#deep-learning

MVG-KAN:多视图地理风引导KAN用于PM$_{2.5}$预测

arXiv cs.AI · 4小时前 缓存

本文提出MVG-KAN,一种集成周期-残差分解、用于风感知空间依赖性的地理风图以及用于PM2.5预测的时间KAN头的多视图模型,在北京数据上实现MAE 14.09。

0 人收藏 0 人点赞
#deep-learning

基于方面的情感演化及其与多轮同行评审中评审轮次的相关性:一种深度学习方法

arXiv cs.CL · 4小时前 缓存

本文利用深度学习方法(LCF-BERT-CDM)研究了《自然·通讯》多轮同行评审中方面级情感的分布与演化,实现了82.65%的宏F1值,并发现随着评审轮次增加,正面情感上升而负面情感下降。

0 人收藏 0 人点赞
#deep-learning

@JustinAngel: https://x.com/JustinAngel/status/2069482255312195980

X AI KOLs Timeline · 14小时前 缓存

发布免费的研讨会录像和材料(23个视频、250张幻灯片、50个练习),帮助你从基础知识到Transformer架构构建自己的大语言模型,无需数学或机器学习基础。

0 人收藏 0 人点赞
#deep-learning

Unlimited OCR: 一次性长程解析

Hacker News Top · 21小时前 缓存

百度发布Unlimited-OCR,这是一个基于Deepseek-OCR构建的开源模型,用于一次性长程文档解析,支持单张图片、多页文档和PDF。

0 人收藏 0 人点赞
#deep-learning

@liuren: https://x.com/liuren/status/2069266318747165146

X AI KOLs Timeline · 昨天 缓存

文章详细回顾了贾扬清在伯克利期间从零开发出深度学习框架Caffe(最初名为Decaf)并选择开源的故事,以及他个人从学生到技术领袖的成长历程。

0 人收藏 0 人点赞
#deep-learning

@ErickSky: 百度刚刚打破了当前OCR最大的限制之一。Unlimited-OCR一次性处理整个文档…

X AI KOLs Timeline · 昨天 缓存

百度发布了Unlimited-OCR,它可以一次性处理整个文档而无需分块,克服了当前OCR技术的一个主要限制。

0 人收藏 0 人点赞
#deep-learning

@0xSero: Highly recommended educational content. LoRA is one of the coolest things to dabble in, lets anyone fine tune models re…

X AI KOLs Timeline · 昨天 缓存

本文详细介绍了 LoRA 及其变体(QLoRA、VeRA、DoRA)的原理,解释了如何通过低秩分解减少可训练参数,实现高效微调大型模型。

0 人收藏 0 人点赞
#deep-learning

Attention Is All You Need

Reddit r/ArtificialInteligence · 昨天

对里程碑式论文《Attention Is All You Need》的反思,着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能,并催生了像GPT和Claude这样的现代大语言模型。

0 人收藏 0 人点赞
#deep-learning

Tapered Language Models

Hugging Face Daily Papers · 2天前 缓存

本文介绍了Tapered Language Models (TLMs),一种架构原则,将更多参数分配给早期层,更少分配给后期层,在不增加额外成本的情况下,持续改善多种架构的困惑度和下游性能。

0 人收藏 0 人点赞
#deep-learning

@PandaTalk8: 2026 年学习 AI 最值得关注的 YouTube 频道,拒绝废话版。 收藏起来,按这个顺序学: 1. 3Blue1Brown AI / 数学基础。用可视化方式讲清楚线性代数、神经网络和底层数学直觉。 https://youtube.c…

X AI KOLs Timeline · 2天前 缓存

推荐了2026年学习AI的15个YouTube频道,按学习阶段分类排序,并给出新手、工程项目、前沿趋势的学习路径建议。

1 人收藏 1 人点赞
#deep-learning

关于矩阵循环单元(一种注意力机制的替代方案)的更新 [R]

Reddit r/MachineLearning · 2天前

关于矩阵循环单元(MRU)的更新,这是一种线性时间复杂度的注意力机制替代方案。作者探索了稳定训练的方法,发现正交矩阵表现不佳,而LDU分解效果最佳,并表明MRU在TinyStories等较大数据集上表现不如Transformer。

0 人收藏 0 人点赞
#deep-learning

@TheTuringPost: https://x.com/TheTuringPost/status/2068474648925216861

X AI KOLs Timeline · 3天前 缓存

一篇关于知识蒸馏的教育性概述,涵盖其历史、核心概念(如softmax和温度)、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。

0 人收藏 0 人点赞
#deep-learning

我写了一个免费的15部分系列文章,讲解LLM内部原理——真实的数学、真实的张量形状、真实的硬件限制。全部基于Gemma 4 12B的实际配置。

Reddit r/LocalLLaMA · 3天前

一个涵盖LLM内部原理的全面15部分系列,从分词到服务部署,基于Gemma 4 12B的实际配置。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈