标签
本文介绍了Google Research联合康奈尔和南加大提出的一种新方法,通过为RNN的记忆拍快照并缓存,使RNN能高效处理长文本,兼具Transformer的强记忆和RNN的低成本,为长上下文AI提供新方向。
HRM-Text发布了一个1B参数的基础模型,声称仅需约$1000即可从零完成预训练,计算量和数据量减少数百倍,采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术,论文与代码均已开源。
PrismML 发布 Bonsai Image 4B,这是一系列紧凑型图像生成模型,使用 1-bit 和三进制权重,能够在笔记本电脑和 iPhone 等本地设备上实现高质量扩散推理,同时显著减少内存占用。
本文总结了关于长上下文LLM的高效AI讲座15,涵盖用于上下文扩展的RoPE位置插值、大海捞针评估,以及StreamingLLM的注意力汇聚现象和KV缓存驱逐策略。
一位开发者使用蒙特卡洛模拟在卫星图像数据集上测试了一个冷战时期的人工智能模型,发现它效率高,适合在FPGA上部署。
介绍了Stratum,一种采用3D堆叠DRAM的系统硬件协同设计方法,以高效加速混合专家(MoE)模型。
Reason-ModernColBERT 在 BrowseComp-Plus 上取得了近乎完美的结果,超越了 SOTA 和 54 倍大的模型,随后 Agent-ModernColBERT 通过极少的训练进一步提升了性能。
一门高效AI课程的第12讲笔记,涵盖 Transformer 与 LLM 基础知识,包括多头注意力机制、位置编码、KV 缓存,以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。
作者介绍了TOPAS,一种递归AI架构,在单张RTX 4090上达到了ARC-AGI-2的11.67%,旨在证明架构效率可以超越原始计算能力。
一种使用三值权重(-1、0、1)的高效 AI 模型架构,仅需 1.58 比特/参数即可实现具有竞争力的性能,可部署在极度受限的设备上。
MiniCPM-V 4.5 是一款 8B 参数规模的多模态大语言模型,凭借统一的 3D-Resampler 架构、创新的数据策略以及混合强化学习方法,实现了高效率与卓越性能。据悉,该模型在显著降低 GPU 显存占用与推理耗时的同时,综合表现已超越更大规模的闭源及开源标杆模型。