model-architecture

标签

Cards List
#model-architecture

混合而非挑选:为何合成语料组合对时间序列基础模型预训练至关重要

arXiv cs.LG · 2026-06-10 缓存

本文系统评估了11种用于基础模型预训练的合成时间序列生成器,发现生成器的排名在不同架构下不稳定,但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料,从而将合成预训练重新定义为语料组合问题而非生成器选择问题。

0 人收藏 0 人点赞
#model-architecture

使用流形幂迭代重新设计混合专家路由器

Hugging Face Daily Papers · 2026-06-10 缓存

研究人员提出了一种针对混合专家模型的新型路由器重新设计,利用流形幂迭代将路由器行与主奇异方向对齐,从而提升模型效果。

0 人收藏 0 人点赞
#model-architecture

[观点] Gemma4-12B 意味着谷歌正全力进军物联网和移动市场,而我们正在助力

Reddit r/LocalLLaMA · 2026-06-05

一篇观点文章认为,谷歌的 Gemma4-12B 模型并非如宣传那样仅面向笔记本电脑,而是战略性地针对 Android 生态系统中的物联网和移动设备,优先考虑低延迟的语音和视频处理,而非回答质量。

0 人收藏 0 人点赞
#model-architecture

除了更快之外,MoE 模型的意义何在?

Reddit r/LocalLLaMA · 2026-05-19

讨论混合专家(MoE)模型在速度之外相对于密集模型的优势,考虑内存限制和扩展限制。

0 人收藏 0 人点赞
#model-architecture

Delta Attention Residuals

Hugging Face Daily Papers · 2026-05-13 缓存

Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。

0 人收藏 0 人点赞
#model-architecture

Interfaze:专为规模化场景下高准确率而构建的新型模型架构

Hacker News Top · 2026-05-11 缓存

Interfaze 推出了一种混合 AI 模型架构,结合 CNN/DNN 的专项优势与 Transformer 能力,在 OCR 和翻译等确定性任务上实现卓越精度,同时在规模化应用中保持成本效率。

0 人收藏 0 人点赞
#model-architecture

为什么没有顶级 LLM 提供商投资扩散型 LLM?

Reddit r/singularity · 2026-05-11

本文探讨了为何在 Mercury 2 等近期技术取得进展的背景下,主流 LLM 提供商仍未大力投资扩散型 LLM。文章分析了阻碍该技术更广泛采用的潜在底层缺陷或硬件瓶颈。

0 人收藏 0 人点赞
#model-architecture

UniPool:一种用于混合专家模型的全球共享专家池

Hugging Face Daily Papers · 2026-05-07 缓存

UniPool 为混合专家(MoE)模型引入了一种共享专家池架构,在降低参数随深度增长的同时,相较于标准 MoE 基线提高了效率和性能。

0 人收藏 0 人点赞
#model-architecture

论大语言模型的固有可解释性:设计原则和架构调查

arXiv cs.CL · 2026-04-20 缓存

一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈