model-scaling

标签

Cards List
#model-scaling

Olmo Hybrid:从理论到实践再回到理论

arXiv cs.CL · 2026-04-20 缓存

本论文介绍了Olmo Hybrid,一个包含70亿参数的语言模型,结合了注意力机制和Gated DeltaNet递归层,相比纯Transformer架构展现出理论和实证优势。该工作表明混合模型具有更强的表达能力,在预训练中扩展效率更高,且性能优于可比的Transformer基线。

0 人收藏 0 人点赞
#model-scaling

基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用

arXiv cs.CL · 2026-04-20 缓存

本文使用基于扰动的归因分析方法,分析了不同微调策略(全量微调、LoRA、量化LoRA)和模型规模对LLM在自动代码合规性任务中解释行为的影响。研究发现全量微调产生的归因模式比参数高效方法更集中,而较大的模型会形成特定的解释策略,但性能收益在超过7B参数后出现递减。

0 人收藏 0 人点赞
#model-scaling

模型能力主导:AIMO 3推理时优化的经验启示

Hugging Face Daily Papers · 2026-04-16 缓存

本论文分析了AIMO 3的推理时优化技术,发现模型能力优于提示工程和多样化采样策略。研究表明高温度采样已经能够最大程度地去相关化误差,为基于提示的改进留下了很少余地,并识别出单个模型pass@20与多数投票共识之间存在6分的选择损失差距。

0 人收藏 0 人点赞
#model-scaling

简化、稳定和扩展连续时间一致性模型

OpenAI Blog · 2024-10-23 缓存

OpenAI 推出 sCM(简化连续时间一致性模型),这是一种新方法,可将一致性模型扩展至 1.5B 参数,通过仅 2 个采样步骤生成高质量样本,相比扩散模型实现约 50 倍的加速。该方法展示了与最先进扩散模型相当的样本质量,同时有效采样计算量不足 10%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈