model-architecture

#model-architecture

混合而非挑选：为何合成语料组合对时间序列基础模型预训练至关重要

arXiv cs.LG ↗ · 2026-06-10 缓存

本文系统评估了11种用于基础模型预训练的合成时间序列生成器，发现生成器的排名在不同架构下不稳定，但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料，从而将合成预训练重新定义为语料组合问题而非生成器选择问题。

0 人收藏 0 人点赞

#model-architecture

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

研究人员提出了一种针对混合专家模型的新型路由器重新设计，利用流形幂迭代将路由器行与主奇异方向对齐，从而提升模型效果。

0 人收藏 0 人点赞

#model-architecture

Reddit r/LocalLLaMA ↗ · 2026-06-05

一篇观点文章认为，谷歌的 Gemma4-12B 模型并非如宣传那样仅面向笔记本电脑，而是战略性地针对 Android 生态系统中的物联网和移动设备，优先考虑低延迟的语音和视频处理，而非回答质量。

0 人收藏 0 人点赞

#model-architecture

Reddit r/LocalLLaMA ↗ · 2026-05-19

讨论混合专家（MoE）模型在速度之外相对于密集模型的优势，考虑内存限制和扩展限制。

0 人收藏 0 人点赞

#model-architecture

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

Delta Attention Residuals 通过关注特征变化（增量）而非累积隐藏状态，改进了Transformer模型中的逐层路由，在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。

0 人收藏 0 人点赞

#model-architecture

Hacker News Top ↗ · 2026-05-11 缓存

Interfaze 推出了一种混合 AI 模型架构，结合 CNN/DNN 的专项优势与 Transformer 能力，在 OCR 和翻译等确定性任务上实现卓越精度，同时在规模化应用中保持成本效率。

0 人收藏 0 人点赞

#model-architecture

Reddit r/singularity ↗ · 2026-05-11

本文探讨了为何在 Mercury 2 等近期技术取得进展的背景下，主流 LLM 提供商仍未大力投资扩散型 LLM。文章分析了阻碍该技术更广泛采用的潜在底层缺陷或硬件瓶颈。

0 人收藏 0 人点赞

#model-architecture

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

UniPool 为混合专家（MoE）模型引入了一种共享专家池架构，在降低参数随深度增长的同时，相较于标准 MoE 基线提高了效率和性能。

0 人收藏 0 人点赞

#model-architecture

arXiv cs.CL ↗ · 2026-04-20 缓存

一份综合调查，回顾了大语言模型（LLM）固有可解释性的最新进展，将方法分为五个设计范式：功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性，而不是依赖事后解释方法的挑战。

0 人收藏 0 人点赞