deep-learning

#deep-learning

@rohanpaul_ai: 有趣，这篇论文表明Transformer可能不需要独立的键和值投影就能表现良好。这篇论文…

X AI KOLs Timeline ↗ · 9小时前缓存

本论文研究了Transformer是否需要独立的键和值投影，发现共享它们可将KV缓存减少50%，而困惑度仅增加3.1%，并且与GQA和MQA结合时进一步减少。

0 人收藏 0 人点赞

#deep-learning

@Suu766: 关于AI 的内容越来越多，但真正值得长期关注、能持续输出高质量内容的博主其实并不多给大家分享几位我一直在关注的 AI 博主，风格不同，但都属于长期看下来很有价值的类型（排名不分前后） 1. @dotey（宝玉老师）中文圈里比较扎实的一…

X AI KOLs Timeline ↗ · 11小时前缓存

一位用户推荐了多位值得长期关注的AI博主，包括宝玉、Karpathy、Raschka、Willison、Howard等，涵盖AI工具、模型原理和实践经验。

0 人收藏 0 人点赞

#deep-learning

KITE：一种融合文本、图像和知识图谱的三模态Transformer用于假新闻检测

arXiv cs.LG ↗ · 17小时前缓存

介绍了KITE，一种联合建模文本、图像和知识图谱的三模态Transformer框架，用于假新闻检测，在基准数据集上优于单模态和双模态基线。

0 人收藏 0 人点赞

#deep-learning

机场航站楼登机口及安检点旅客排队预测

arXiv cs.LG ↗ · 17小时前缓存

本文提出了一种基于Transformer的框架，用于预测机场航站楼登机口和安检点的旅客排队长度和等待时间，能够提前两小时进行准确预测，以支持主动式拥堵管理。

0 人收藏 0 人点赞

#deep-learning

立场：基因组模型研究必须超越对可解释性方法的偶发性评估

arXiv cs.LG ↗ · 17小时前缓存

本文立场认为，基因组模型的可解释性研究必须超越偶发性评估，提出一个分层框架以严格评估一致性、忠实性和生物学有效性，并通过一个关于转录因子结合的基准研究进行论证。

0 人收藏 0 人点赞

#deep-learning

高斯Transformer动力学的可达性与渐近性

arXiv cs.LG ↗ · 17小时前缓存

本文提出了一个将Transformer动力学视为概率测度上的非线性控制系统的数学框架，证明了高斯分布在流动下保持高斯性，简化为有限维双线性控制，并建立了可达性条件和渐近稳定性结果。

0 人收藏 0 人点赞

#deep-learning

DiffoR：一种用于通用序数回归的统一连续生成框架

arXiv cs.LG ↗ · 17小时前缓存

DiffoR 提出了一种利用扩散模型进行序数回归的新型连续生成框架，克服了离散方法的局限性。在12个基准数据集上的大量实验表明，该方法在四个领域均达到了最先进的性能。

0 人收藏 0 人点赞

#deep-learning

重复不匹配：为何数据混合实验无法扩展以及如何修复

arXiv cs.LG ↗ · 17小时前缓存

论文指出重复不匹配是数据混合实验无法扩展的主要原因，并提出了一种重复控制子采样程序，使得小规模实验能够使用远少于原先的token数量恢复出接近最优的混合方案。

0 人收藏 0 人点赞

#deep-learning

STARIXNet：面向云平台实时资源分配的多变量多属性深度学习方法

arXiv cs.LG ↗ · 17小时前缓存

STARIXNet是一种轻量级神经网络，通过捕获系统指标之间的多变量时空关系来改进云资源分配，优先考虑服务稳定性而非预测准确性。在沃尔玛部署后，它在保持服务可靠性的同时实现了10%-50%的成本节约。

0 人收藏 0 人点赞

#deep-learning

@louieworth: 新博客文章：On-Policy Distillation — 前景、陷阱与展望

X AI KOLs Following ↗ · 18小时前缓存

这篇博客文章讨论了On-Policy Distillation (OPD)，这是一种结合在线策略 rollout 与密集教师监督的技术，并重点介绍了其前景、三种失败模式以及作者关于该主题的新论文。

0 人收藏 0 人点赞

#deep-learning

@snowboat84: https://x.com/snowboat84/status/2064135804092645410

X AI KOLs Timeline ↗ · 21小时前缓存

本文系统梳理了世界模型（world model）这一概念从1943年Craik的心理隐喻到2024-2026年产业爆发的演进历程，详细介绍了符号AI、深度学习流派（Schmidhuber-Ha、Dreamer系列、JEPA、视频生成方向）的核心理念与代表作品，并指出当前定义混乱、各派竞争的现状。

0 人收藏 0 人点赞

#deep-learning

@bqbrady: https://x.com/bqbrady/status/2064055370809778371

X AI KOLs Timeline ↗ · 昨天缓存

一篇关于现代深度学习的详细个人综述，聚焦于基础模型、视觉语言模型及其架构决策，面向那些希望获得直觉而非密集数学的读者。

0 人收藏 0 人点赞

#deep-learning

@Potatoloogs: LLM 内部究竟怎么运作：从 token 到 next-token，九个核心机制完整梳理 a）Tokenization：模型读的不是文字，是整数 · 文本先被切成 subword 片段，再映射成整数 ID；现代 LLM 词表通常有数万到数…

X AI KOLs Timeline ↗ · 昨天缓存

本文从 tokenization 到 next-token 预测，系统梳理了现代 LLM 内部的九个核心机制，包括 tokenization、embedding、位置编码、注意力、多头注意力、前馈网络等，并比较了不同模型的架构差异。

0 人收藏 0 人点赞

#deep-learning

MSAIC-Net: 多尺度注意力与不平衡感知对比网络用于基于心电图的心肌基质异常检测

arXiv cs.LG ↗ · 昨天缓存

提出了MSAIC-Net，一种多尺度注意力增强的卷积网络，用于从心电图信号中检测心肌基质异常，采用不平衡感知对比学习和逐导联置换重要性以提高模型可解释性。

0 人收藏 0 人点赞

#deep-learning

深度表示学习的原理与实践：或记忆的数学理论

arXiv cs.LG ↗ · 昨天缓存

本书提出了深度表示学习的数学理论，旨在利用优化和信息论揭开大型深度网络内部机制的神秘面纱，使架构设计成为线性代数和微积分的问题。

0 人收藏 0 人点赞

#deep-learning

WAV：面向深度仅解码器Transformer的多分辨率块残差路由

arXiv cs.LG ↗ · 昨天缓存

本文提出多分辨率残差路由方法WAV v1，这是块注意力残差机制的扩展，通过引入方向性细节基来增强块表示，从而改进深度仅解码器Transformer的训练效果。

0 人收藏 0 人点赞

#deep-learning

基于太赫兹双梳光谱的多尺度特征注意力网络用于聚合物分类

arXiv cs.LG ↗ · 昨天缓存

本文介绍了多尺度特征注意力网络（MSFAN），这是一种利用太赫兹双梳光谱对12种聚合物进行分类的深度学习架构，达到了85.2%的准确率，并超越了现有最先进模型。

0 人收藏 0 人点赞

#deep-learning

Synthetic Benchmarks Overstate Forward-Forward Scaling: Real-Data Limits of Layer-Local Training

arXiv cs.AI ↗ · 昨天缓存

本文表明，像Forward-Forward (FF)这样的层局部训练方法无法扩展到真实的图像尺寸和数据集，且合成基准测试夸大了其性能。作者引入了一个强大的FF变体（DTG-FF），并证明在真实数据（例如224x224的ImageNet-100）上，FF仅达到49.4%，而典型BP超过75%，而在合成任务上，差距缩小甚至反转。

0 人收藏 0 人点赞

#deep-learning

面向音视频事件定位的层次化语义约束异构图

arXiv cs.AI ↗ · 昨天缓存

提出了一种层次化语义约束异构图模型，用于开放词汇的音视频事件定位，解决了多个时间尺度上的跨模态一致性问题以及片段级和视频级之间的层次语义约束问题。在OV-AVEL基准上取得了最先进的结果。

0 人收藏 0 人点赞

#deep-learning

DiBS: 扩散信息引导的支路选择

arXiv cs.AI ↗ · 昨天缓存

提出DiBS，一种扩散模型引导的方法，用于精确数独求解器中的支路选择，在不牺牲完备性的情况下降低搜索代价，并有理论证明和在Royle 17线索基准上的实证结果支持。

0 人收藏 0 人点赞

deep-learning

提交意见反馈