@latkins: Fern 是最棒的之一
摘要
Fern 宣布了一种新的正则化技术,解决了 SolidGoldMagikarp 稳定性问题,详情将在后续帖子中说明。
Fern 是最棒的之一
查看缓存全文
缓存时间: 2026/05/26 21:14
Fern 是最出色的之一
Fern (@hi_tysam): 大约两年多前,我解决了 SolidGoldMagikarp 稳定性问题。
今天,我将这项工作的成果作为一项新的训练正则化技术发布。
更多细节如下。
相似文章
@levidiamode: GPU编程第157/365天:另一个对我非常有帮助的FlashAttention4资源是@charles_irl的演讲…
一个每日GPU编程帖子重点介绍了Charles_irl的演讲,该演讲在论文发布前逆向工程了FlashAttention4代码,并赞扬了Modal团队对代码的深入剖析和对前向传播的合理推断。
LakeFM:面向水生生态系统的基础模型,使用不规则多变量多深度时间序列数据
LakeFM 是一个面向水生系统的基础模型,在大规模生态数据集上预训练,利用不规则多变量多深度时间序列数据预测湖泊动态,与现有模型相比取得了有竞争力的性能。
FragileFlow:通过频谱控制正确但脆弱的预测以增强基础模型的鲁棒性
本文介绍了 FragileFlow,这是一种插件式正则化器,通过频谱分析和 PAC-Bayes 界来控制“正确但脆弱”的预测,从而提高 LLM 和 VLM 的鲁棒性。
@jobergum:你们认识我是 BM25 guy,但 embeddings 也很酷。@HornetDev 团队刚刚发布了新文章,在 1 亿规模下做 ANN 调优……
HornetDev 团队发布文章,介绍在 1 亿级别数据下调优近似最近邻搜索,涵盖 embedding 偏差、图连通性与量化上限。
@optimalab1: 高度赞扬 Barbara Su(莱斯大学计算机科学 -> 斯坦福大学硕士):她主导了整个端到端流程:算法、GLUE/SQuAD 流水线…
介绍 AdaPaD,一种用于 LoRA 微调的并行秩-1 缩减方法,使得低秩线性回归组件可以并行计算而非顺序计算,提高了效率。