标签
一位用户分享了对“AI Engineering from Scratch”网站的重构设计,该网站是一本参考手册,通过原始数学实现来解释 Transformer 和反向传播等 AI 概念。
Looped Transformers 的共同发明者 Angeliki Giannou 已成功通过博士论文答辩,并即将开始新的职位。Dimitris Papailiopoulos 在社交媒体上送上了祝贺。
FormalSLT是一个Lean 4库,它形式化证明了有限样本统计学习理论结果(ERM、VC界、Rademacher界、PAC-Bayes等),附带显式假设且零sorry语句,为机器学习理论提供机器可验证的基础。
科学家使用机器学习算法分析TESS数据,识别出超过1万颗新的系外行星候选体,可能使已知数量翻三倍。其中一个候选体被确认为热木星,验证了该方法。
研究者提出将认知科学中的"global ignition"意识机制应用于长上下文工程,提出MiA-Signature方法使用子模选择高层概念覆盖激活空间,应用于RAG和agentic系统后获得一致性能提升。
一个全面且开源的 GitHub 仓库,提供结构化的学习路线图与精选资源,助力学习者从入门到精通掌握 AI、机器学习、深度学习及大语言模型。该资源面向学生与专业人士设计,内容涵盖基础概念、编程框架、职业发展路径以及前沿 AI 议题。
Andrew Ng 分享了他的斯坦福 CS229 课程,涵盖机器学习核心数学知识,包括局部加权回归、最大似然估计、逻辑回归和牛顿方法,为开发者提供了一份全面的机器学习基础指南。
Token AI发布了一篇研究论文,介绍STAM——一种新型自适应动量优化器,旨在提升训练稳定性并降低内存占用,相比AdamW等标准优化器效果更优。
本文介绍了 SDFlow,这是一种用于时间序列生成的相似性驱动流匹配框架,旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解,SDFlow 实现了最先进的性能并显著提升了推理速度。
本文提出了一种局部感知的私有类识别方法,以及一种基于可靠最优传输的方法(ReOT),以解决极端标签偏移下的域适应挑战,特别是区分共享类与私有类。
本文介绍了苹果公司提出的标注员策略模型(APMs),该模型利用可解释性技术,无需额外标注努力即可从标注行为中推断标注员内部的安全策略。作者证明,APMs 能够准确地建模这些策略,并区分标注分歧的来源,例如操作失误、策略模糊性和价值观多元性。
本文提出了一个全面的基准,用于评估图神经网络中的对抗攻击与防御,强调了需要标准化和公平的实验协议。
本文介绍了 MOSAIC,这是一种用于科学时间序列中模块发现的方法,它将因果表征学习与稀疏可加可识别因果学习相结合。其目标是在无需事后对齐的情况下,恢复可解释的潜在变量及其关联观测值,并在分子动力学和气候数据等领域进行了验证。
本文提出了 NM-PPG,这是一种利用路径策略梯度优化昂贵预测场景中顺序特征选择的非短视主动特征获取方法。
本文介绍了 TIDE,一种通过嵌入记忆(Embedding Memory)将令牌身份注入每一层,从而解决大语言模型(LLM)中罕见令牌问题和上下文崩溃问题的方法。作者在理论上和经验上证明了该方法在语言建模和下游任务中的改进。
本文指出了标准微调在因果推理任务中存在的“模型崩溃”问题,并提出了一种结合基于图的逻辑约束的语义损失函数来防止该现象。
本文介绍了 SPADE,这是一种用于药物发现的新颖算法,能够仅通过约 40 次测试便从稀疏数据中高效识别出高质量配体。与深度学习和贝叶斯优化方法相比,SPADE 展现了更优的样本效率和速度。
本文介绍了 CopyCop,这是一种用于验证图神经网络所有权的算法,即使模型在架构、权重或输出变换上存在差异,它也能检测出代理模型。
本文提出了一种端到端的流水线,用于识别和预测墨西哥汽车行业在线招聘广告中的绿色技能需求。通过对15种时间序列预测模型进行基准测试,研究发现以Transformer为基础的模型(如FEDformer和Informer)表现最佳,并引入了一个二维框架,根据增长动态对技能进行分类。
本研究论文介绍了Chainwash,一种多步重写攻击,能够有效删除扩散语言模型(LLaDA-8B-Instruct)输出中的统计水印,经过五次链式重写后,检测率从87.9%降至4.86%。