来自 HuggingFace 的文章
一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。
本文介绍了吸引子模型,该模型利用定点求解和隐式微分进行高效的迭代优化,在降低计算成本的同时,实现了相较于传统Transformer更优的语言建模和推理性能。
EgoForce是一个单目3D手部重建框架,使用统一网络,包含可微分前臂表示、手臂-手部变换器和射线空间求解器,能够在不同相机模型下恢复绝对手部姿态和位置,在多个第一人称基准测试中达到了最先进的精度。
UniPath 提出了一种框架,用于统一多模态模型中理解与生成的适应性协调,利用协调路径多样性来提升相对于固定策略的性能。
ORBIT提出了一种方法,通过跟踪参数距离并使用权重平均,缓解了为生成式检索微调的大语言模型中的灾难性遗忘,优于常见的持续学习基线。
本文表明,在编码器适配过程中从掩码语言建模(MLM)切换至因果语言建模(CLM),能够提升在生物医学文本上的下游任务性能。作者发布了 ModernBERT-bio 和 ModernCamemBERT-bio,作为当前最先进的生物医学编码器。
本文介绍了 WildRelight,这是一个针对单图像重光照的实世界基准数据集,旨在弥合合成场景与自然场景之间的差距。该研究提出了一种物理引导的自适应框架,利用扩散后验采样和测试时自适应来提升模型在实世界数据上的表现。
本文介绍了 DR.Q 算法,该算法通过最大化互信息并采用淡出优先经验回放,改善了 Q-learning 的模型化表示,从而减少了连续控制任务中的偏差和过拟合。
本文介绍了 Pion,这是一种用于大语言模型训练的的新型谱保持优化器。它利用正交等价变换在权重更新过程中维持奇异值,从而提供与标准优化器相当的稳定性能。
本文提出了多流大语言模型(Multi-Stream LLMs),将基于顺序消息的指令微调转变为并行流处理。这种方法允许语言模型在多个并发数据流中同时进行读取、思考和生成,解决了自主智能体应用中的瓶颈问题。
AlphaGRPO 是一个新框架,将组相对策略优化(Group Relative Policy Optimization)应用于统一多模态模型(UMMs),通过自反式精炼和分解可验证奖励来增强生成效果。
ToolCUA 是一个全新的代理框架,通过分阶段训练和强化学习,优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替,在 OSWorld-MCP 上达到了最先进的性能。
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。
L2P 论文提出了一种潜在空间到像素空间(Latent-to-Pixel)的迁移范式,该范式利用预训练的潜在扩散模型(LDM),以极低的训练开销构建高效的像素空间模型,并实现 4K 分辨率生成。
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
本文提出了 FATE,这是一种基于策略(on-policy)的框架,它利用失败轨迹通过自我进化和感知帕累托前沿的优化来增强使用工具的 LLM 智能体的安全性和性能。
本文探讨了大型语言模型(LLM)异步强化学习中的旧 logits 缺失问题,提出了精确与近似的修正方法,以提升训练稳定性和性能。
MoCam 是一篇研究论文,介绍了一种基于扩散的统一新视角合成框架,该框架通过动态协调几何和外观先验,提高了对几何误差的鲁棒性。
本文介绍了 AutoLLMResearch,这是一个智能体框架,旨在通过在低保真环境中学习并外推至高成本设置,实现昂贵的大型语言模型(LLM)实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。