标签
本论文研究了Transformer是否需要独立的键和值投影,发现共享它们可将KV缓存减少50%,而困惑度仅增加3.1%,并且与GQA和MQA结合时进一步减少。
一位用户推荐了多位值得长期关注的AI博主,包括宝玉、Karpathy、Raschka、Willison、Howard等,涵盖AI工具、模型原理和实践经验。
介绍了KITE,一种联合建模文本、图像和知识图谱的三模态Transformer框架,用于假新闻检测,在基准数据集上优于单模态和双模态基线。
本文提出了一种基于Transformer的框架,用于预测机场航站楼登机口和安检点的旅客排队长度和等待时间,能够提前两小时进行准确预测,以支持主动式拥堵管理。
本文立场认为,基因组模型的可解释性研究必须超越偶发性评估,提出一个分层框架以严格评估一致性、忠实性和生物学有效性,并通过一个关于转录因子结合的基准研究进行论证。
本文提出了一个将Transformer动力学视为概率测度上的非线性控制系统的数学框架,证明了高斯分布在流动下保持高斯性,简化为有限维双线性控制,并建立了可达性条件和渐近稳定性结果。
DiffoR 提出了一种利用扩散模型进行序数回归的新型连续生成框架,克服了离散方法的局限性。在12个基准数据集上的大量实验表明,该方法在四个领域均达到了最先进的性能。
论文指出重复不匹配是数据混合实验无法扩展的主要原因,并提出了一种重复控制子采样程序,使得小规模实验能够使用远少于原先的token数量恢复出接近最优的混合方案。
STARIXNet是一种轻量级神经网络,通过捕获系统指标之间的多变量时空关系来改进云资源分配,优先考虑服务稳定性而非预测准确性。在沃尔玛部署后,它在保持服务可靠性的同时实现了10%-50%的成本节约。
这篇博客文章讨论了On-Policy Distillation (OPD),这是一种结合在线策略 rollout 与密集教师监督的技术,并重点介绍了其前景、三种失败模式以及作者关于该主题的新论文。
本文系统梳理了世界模型(world model)这一概念从1943年Craik的心理隐喻到2024-2026年产业爆发的演进历程,详细介绍了符号AI、深度学习流派(Schmidhuber-Ha、Dreamer系列、JEPA、视频生成方向)的核心理念与代表作品,并指出当前定义混乱、各派竞争的现状。
一篇关于现代深度学习的详细个人综述,聚焦于基础模型、视觉语言模型及其架构决策,面向那些希望获得直觉而非密集数学的读者。
本文从 tokenization 到 next-token 预测,系统梳理了现代 LLM 内部的九个核心机制,包括 tokenization、embedding、位置编码、注意力、多头注意力、前馈网络等,并比较了不同模型的架构差异。
提出了MSAIC-Net,一种多尺度注意力增强的卷积网络,用于从心电图信号中检测心肌基质异常,采用不平衡感知对比学习和逐导联置换重要性以提高模型可解释性。
本书提出了深度表示学习的数学理论,旨在利用优化和信息论揭开大型深度网络内部机制的神秘面纱,使架构设计成为线性代数和微积分的问题。
本文提出多分辨率残差路由方法WAV v1,这是块注意力残差机制的扩展,通过引入方向性细节基来增强块表示,从而改进深度仅解码器Transformer的训练效果。
本文介绍了多尺度特征注意力网络(MSFAN),这是一种利用太赫兹双梳光谱对12种聚合物进行分类的深度学习架构,达到了85.2%的准确率,并超越了现有最先进模型。
本文表明,像Forward-Forward (FF)这样的层局部训练方法无法扩展到真实的图像尺寸和数据集,且合成基准测试夸大了其性能。作者引入了一个强大的FF变体(DTG-FF),并证明在真实数据(例如224x224的ImageNet-100)上,FF仅达到49.4%,而典型BP超过75%,而在合成任务上,差距缩小甚至反转。
提出了一种层次化语义约束异构图模型,用于开放词汇的音视频事件定位,解决了多个时间尺度上的跨模态一致性问题以及片段级和视频级之间的层次语义约束问题。在OV-AVEL基准上取得了最先进的结果。
提出DiBS,一种扩散模型引导的方法,用于精确数独求解器中的支路选择,在不牺牲完备性的情况下降低搜索代价,并有理论证明和在Royle 17线索基准上的实证结果支持。