deep-learning

#deep-learning

@mubeitech: Transformer根本不是AI的终局。这是英伟达AI研究副总裁Sanja Fidler给出的断言。这位掌管英伟达空间智能实验室的负责人，看到的是当前架构的死穴。现在的模型训练成本太昂贵。对海量数据的依赖深不见底。必须在架构底…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

英伟达AI研究副总裁Sanja Fidler断言Transformer并非AI的终局架构，指出当前模型训练成本过高、对海量数据依赖严重，需要在架构底层寻求新突破，新一代架构变种已开始涌现。

0 人收藏 0 人点赞

#deep-learning

基于深度学习的阿姆哈拉语高校常见问题问答聊天机器人

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出了一种基于深度学习的聊天机器人系统，用于解答大学中的阿姆哈拉语常见问题，利用TensorFlow和Keras实现神经网络，达到了91.55%的准确率。该系统解决了阿姆哈拉语特有的语言挑战，包括形态变化和词汇缺口，并通过Heroku部署在Facebook Messenger上。

0 人收藏 0 人点赞

#deep-learning

看见无形之物：图像分类到高级和抽象类别的调查

arXiv cs.CL ↗ · 2026-04-20 缓存

一份全面的调查论文，审视图像分类到高级和抽象类别的任务，通过对常识语义、情感语义、美学语义和解释语义的多学科分析，澄清了计算机视觉中高级语义的隐性理解。该论文指出了抽象概念图像分类中存在的持久挑战，强调了混合人工智能系统在处理复杂视觉推理任务中的重要性。

0 人收藏 0 人点赞

#deep-learning

@techyoutbe：斯坦福大学“LLM架构”1.5小时讲座

X AI KOLs Timeline ↗ · 2026-04-19 缓存

斯坦福大学提供一场时长1.5小时的讲座，全面涵盖大语言模型的基础概念与设计原则。

0 人收藏 0 人点赞

#deep-learning

TwinTrack：医学影像分割的事后多标注者校准

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

# 论文页面 - TwinTrack：医学影像分割的事后多标注者校准来源：[https://huggingface.co/papers/2604.15950](https://huggingface.co/papers/2604.15950) ## 摘要 TwinTrack 框架通过将集成概率事后校准为经验平均人类响应，解决胰腺癌分割中的模糊性，在多标注者基准上提升校准指标。

0 人收藏 0 人点赞

#deep-learning

ArtifactNet：通过法证残差物理学检测AI生成音乐

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

ArtifactNet是一个轻量级神经网络框架，通过分析音频信号中的编码器特定工件来检测AI生成的音乐，在新的6,183轨道基准测试（ArtifactBench）上达到F1=0.9829，参数量比竞争方法少49倍。该方法采用法证物理学原理，通过有界掩码UNet和紧凑型CNN提取编码器残差，编码器感知训练将跨编码器漂移减少83%。

0 人收藏 0 人点赞

#deep-learning

NTIRE 2026 视频显著性预测挑战赛：方法与结果

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

# 论文页面 - NTIRE 2026 视频显著性预测挑战赛：方法与结果来源：[https://huggingface.co/papers/2604.14816](https://huggingface.co/papers/2604.14816) 作者：,,,,,,,,,,,,,,,,,,,,, ## 摘要本文概述了 NTIRE 2026 视频显著性预测挑战赛。挑战赛的目标是为提供的视频序列开发自动显著图预测方法。为此，我们准备了一个包含 2,000 条多样化视频、采用开放许可的全新数据集。通过众包鼠标追踪收集注视点及对应显著图，涵盖超过 5,000 名评估者的观看数据。评估在 800 条测试视频子集上进行，采用广泛认可的质量指标。本次挑战赛吸引了 20 余支队伍提交结果，最终 7 支队伍通过代码审查阶段。所有数据均已公开——https://github.com/msu-video-group/NTIRE26_Saliency_Prediction。

0 人收藏 0 人点赞

#deep-learning

huggingface/transformers 补丁发布 v5.5.4

GitHub Releases Watchlist ↗ · 2026-04-13 缓存

Hugging Face 发布了 transformers 库的补丁版本 v5.5.4，这是对该广泛使用的 NLP/深度学习框架的例行维护更新。

0 人收藏 0 人点赞

#deep-learning

利用计算机视觉增强鱼类监测的公民科学

MIT News — Artificial Intelligence ↗ · 2026-03-25 缓存

麻省理工学院和伍德韦尔气候研究中心的研究人员发表了一篇论文，探讨如何利用计算机视觉技术自动化鱼类监测，改进传统的公民科学方法，以助力河鲱鱼保护。

0 人收藏 0 人点赞

#deep-learning

AI能否帮助预测哪些心力衰竭患者会在一年内病情恶化？

MIT News — Artificial Intelligence ↗ · 2026-03-12 缓存

MIT研究人员开发了 PULSE-HF，这是一种深度学习模型，可通过心电图预测心力衰竭患者在一年内是否会出现左心室射血分数恶化。该模型已发表于 Lancet eClinical Medicine，有望帮助临床医生对高危患者进行优先级管理，并在资源丰富和资源匮乏的临床场景中减少不必要的住院就诊。

0 人收藏 0 人点赞

#deep-learning

利用AI更深入地感知宇宙

Google DeepMind Blog ↗ · 2025-10-24 缓存

DeepMind推出Deep Loop Shaping，一种新颖的AI方法，可以降低噪声并改善引力波天文台的反馈控制。该方法在LIGO最不稳定的反馈回路中将噪声降低30-100倍，使得每年能够探测到数百个额外的天文事件。

0 人收藏 0 人点赞

#deep-learning

发现流体动力学百年难题的新解决方案

Google DeepMind Blog ↗ · 2025-10-24 缓存

DeepMind 研究人员利用 AI 技术在基础流体动力学方程中发现了新的不稳定奇点族，有望推动对纳维-斯托克斯方程等百年数学难题的理解。该项工作与布朗大学、纽约大学和斯坦福大学合作，以前所未有的计算精度揭示了爆炸行为的规律。

0 人收藏 0 人点赞

#deep-learning

UI-TARS-2 技术报告：通过多轮强化学习推进图形用户界面代理

Papers with Code Trending ↗ · 2025-09-02 缓存

UI-TARS-2 是一款原生以图形用户界面为中心的代理模型，解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战，在图形用户界面基准测试中取得了领先成果（Online-Mind2Web 88.2 分，OSWorld 47.5 分，WindowsAgentArena 50.6 分，AndroidWorld 73.3 分），优于 Claude 和 OpenAI 代理模型。

0 人收藏 0 人点赞

#deep-learning

埃隆·马斯克想要一个OpenAI营利性实体

OpenAI Blog ↗ · 2024-12-13 缓存

OpenAI发布了一篇文章，讨论埃隆·马斯克对OpenAI营利性结构的愿景，强调硬件能力和计算规模是AI突破的根本驱动力，并预测机器人、定理证明和AI竞争力的近期进展。

0 人收藏 0 人点赞

#deep-learning

简化、稳定和扩展连续时间一致性模型

OpenAI Blog ↗ · 2024-10-23 缓存

OpenAI 推出 sCM（简化连续时间一致性模型），这是一种新方法，可将一致性模型扩展至 1.5B 参数，通过仅 2 个采样步骤生成高质量样本，相比扩散模型实现约 50 倍的加速。该方法展示了与最先进扩散模型相当的样本质量，同时有效采样计算量不足 10%。

0 人收藏 0 人点赞

#deep-learning

MuZero：软件1.0的终结者？

ML at Berkeley ↗ · 2022-09-06

本文探讨了谷歌 DeepMind 的 MuZero 算法作为“软件2.0”的典型案例，认为尽管深度学习在性能上超越了传统软件，但它仍然依赖于博弈树搜索等经典计算技术。

0 人收藏 0 人点赞

#deep-learning

大规模神经网络的训练技术

OpenAI Blog ↗ · 2022-06-09 缓存

OpenAI 展示了在分布式 GPU 集群上训练大规模神经网络的全面技术，涵盖数据并行、管道并行、张量并行和专家混合等方法，以克服工程和可扩展性挑战。

0 人收藏 0 人点赞

#deep-learning

介绍 Triton：神经网络开源 GPU 编程

OpenAI Blog ↗ · 2021-07-28 缓存

# 介绍 Triton：神经网络开源 GPU 编程来源：[https://openai.com/index/triton/](https://openai.com/index/triton/) ![介绍 Triton 开源 GPU 编程神经网络](https://images.ctfassets.net/kftzwdyauwt9/cdce1ebd-19a2-4848-a08ec8c44e18/55b924fc6628318148b7c5c4902551e7/image-18.webp?w=3840&q=90&fm=webp) 我们发布了 Triton 1.0，这是一种开源的类 Python 编程语言，使没有 CUDA 经验的研究人员能够编写高效的 GPU 代码——在大多数情况下与专家能够生成的代码性能相当。

0 人收藏 0 人点赞

#deep-learning

异星绮梦：新兴艺术图景

ML at Berkeley ↗ · 2021-06-30 缓存

本文聚焦于利用 OpenAI 的 CLIP 模型作为生成式模型引导机制的新兴 AI 生成艺术场景，展示了多种文本转图像的生成实例。

0 人收藏 0 人点赞

#deep-learning

用于视觉问答的神经模块网络

ML at Berkeley ↗ · 2021-03-10 缓存

本文解析了论文《Deep Compositional Question Answering with Neural Module Networks》中提出的神经模块网络（NMN）架构，详细阐述了其如何通过将问题分解为模块化的步骤来处理视觉问答任务中的组合结构。

0 人收藏 0 人点赞

deep-learning

提交意见反馈