model-scaling

#model-scaling

Olmo Hybrid：从理论到实践再回到理论

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文介绍了Olmo Hybrid，一个包含70亿参数的语言模型，结合了注意力机制和Gated DeltaNet递归层，相比纯Transformer架构展现出理论和实证优势。该工作表明混合模型具有更强的表达能力，在预训练中扩展效率更高，且性能优于可比的Transformer基线。

0 人收藏 0 人点赞

#model-scaling

arXiv cs.CL ↗ · 2026-04-20 缓存

本文使用基于扰动的归因分析方法，分析了不同微调策略（全量微调、LoRA、量化LoRA）和模型规模对LLM在自动代码合规性任务中解释行为的影响。研究发现全量微调产生的归因模式比参数高效方法更集中，而较大的模型会形成特定的解释策略，但性能收益在超过7B参数后出现递减。

0 人收藏 0 人点赞

#model-scaling

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

本论文分析了AIMO 3的推理时优化技术，发现模型能力优于提示工程和多样化采样策略。研究表明高温度采样已经能够最大程度地去相关化误差，为基于提示的改进留下了很少余地，并识别出单个模型pass@20与多数投票共识之间存在6分的选择损失差距。

0 人收藏 0 人点赞

#model-scaling

OpenAI Blog ↗ · 2024-10-23 缓存

OpenAI 推出 sCM（简化连续时间一致性模型），这是一种新方法，可将一致性模型扩展至 1.5B 参数，通过仅 2 个采样步骤生成高质量样本，相比扩散模型实现约 50 倍的加速。该方法展示了与最先进扩散模型相当的样本质量，同时有效采样计算量不足 10%。

0 人收藏 0 人点赞