标签
本文系统评估了11种用于基础模型预训练的合成时间序列生成器,发现生成器的排名在不同架构下不稳定,但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料,从而将合成预训练重新定义为语料组合问题而非生成器选择问题。
研究人员提出了一种针对混合专家模型的新型路由器重新设计,利用流形幂迭代将路由器行与主奇异方向对齐,从而提升模型效果。
一篇观点文章认为,谷歌的 Gemma4-12B 模型并非如宣传那样仅面向笔记本电脑,而是战略性地针对 Android 生态系统中的物联网和移动设备,优先考虑低延迟的语音和视频处理,而非回答质量。
Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。
Interfaze 推出了一种混合 AI 模型架构,结合 CNN/DNN 的专项优势与 Transformer 能力,在 OCR 和翻译等确定性任务上实现卓越精度,同时在规模化应用中保持成本效率。
本文探讨了为何在 Mercury 2 等近期技术取得进展的背景下,主流 LLM 提供商仍未大力投资扩散型 LLM。文章分析了阻碍该技术更广泛采用的潜在底层缺陷或硬件瓶颈。
UniPool 为混合专家(MoE)模型引入了一种共享专家池架构,在降低参数随深度增长的同时,相较于标准 MoE 基线提高了效率和性能。
一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。