标签
一篇博客文章,反思成为机器学习研究员的过程,与禅修进行类比,强调阅读、构建、专注于基础以及不追求基准的重要性。
本研究论文提出了一种用于在生成采样中强制执行硬约束的自适应校正调度方法,证明与末端或逐步投影方法相比,该方法能够改善成本-精度边界。
本文介绍了 Toeplitz MLP Mixer(TMM),这是一种新型架构,它用 Toeplitz 矩阵乘法取代注意力机制,从而在保持高信息保留率和训练效率的同时实现更低的计算复杂度。
本文提出了显著性感知正则化量化校准(SARQC),这是一个统一的框架,通过添加正则化项以保持权重接近度,从而改善大语言模型(LLM)的训练后量化(PTQ),提升泛化能力和性能。
本文介绍了 CaRE,一种新颖的持续学习框架,它使用双层路由混合专家机制,能够有效处理涉及 300 多项任务序列的类增量学习。
本文提出了 AnisoAlign 框架,该框架通过应用各向异性几何校正来解决多模态模型中的模态间隙问题,从而实现有效的非配对模态对齐。
MIT CSAIL及其他机构的研究人员推出了CompreSSM技术,该技术通过在训练早期移除不必要的组件来压缩状态空间AI模型,从而在不牺牲性能的情况下实现更快的训练速度和更小的模型体积。