标签
提出了一种分层贝叶斯框架,用于从多个稀疏、含噪声的数据集中对动力系统进行元学习,利用基于梯度的MCMC与嵌入的ODE求解器,对共享参数和数据集特定参数进行高效的后验推断。
提出了一种名为MEDIC的新型元学习策略,用于开放集域泛化,该策略通过域和类别划分间的隐式梯度匹配来实现更优的边界。实验表明其性能达到最先进水平。
本文介绍了Connect the Dots(CoD),这是一个通过强化学习训练LLM的框架,用于培养长期生命周期智能体的元能力,实现持续学习和跨域泛化。
提出 ReGrad,一种将梯度视为可检索知识单元用于持续后训练的范式,通过将文档特定梯度存储在梯度银行(Gradient Bank)中,并在推理时检索查询相关梯度进行临时权重适应,从而避免累积权重漂移。
本文认为,最近声称神经网络已解决Fodor和Pylyshyn的系统性挑战的结论为时过早。作者表明,用于组合性的元学习模型在分布外泛化方面失败,甚至在分布内问题上也表现出非系统性行为,从而得出结论:该挑战仍未解决。
提出WIZARD,一种权重空间元学习框架,它从语言指令和演示视频中为冻结的VLA策略生成任务特定的LoRA参数,从而实现无需微调的高效任务自适应。
本文提出了一个三阶段诊断框架,用于识别离线模型选择器为何无法胜过最佳单一模型,并将其应用于edX点击流数据上的辍学预测。研究发现瓶颈在于局部表征歧义,而非学习器选择或分布偏移,建议重新设计状态或收集新数据,而非进一步调优算法。
SePO(自进化提示优化)提出了一种自指涉提示智能体,通过进化搜索同时优化任务智能体的系统提示和自身的系统提示。在包括 AIME'25、ARC-AGI-1 和 GPQA 在内的五个基准测试中,SePO 的表现优于 Manual-CoT、TextGrad 和 MetaSPO。
R-APS(反思性对抗帕累托搜索)是一种面向约束设计任务的新方法,通过跨三个时间尺度的推理模式分解,解决了基于LLM的智能体系统中的三类结构性缺陷——错误传播、鲁棒性评估与知识失效,且无需微调。在平面机构综合任务上的评估结果表明,与基线方法相比,R-APS实现了3.5倍更紧的鲁棒性证书、46%更快的首次准入迭代速度,以及2.1倍的Chamfer距离缩减。
CHAM-net提出了一种对比分层自适应元网络,能够捕捉站点特定和跨年动态,用于稳健的全球甲烷通量预测,在模拟和观测数据集上均优于基线方法。
本文认为,LLM中的遗忘应依赖于目标,提出了一种基于余弦的元学习RMU变体用于危险知识遗忘,以及一种结合探针方向的多层目标用于毒性遗忘,在四个7-8B模型上取得了显著效果。
本文从理论上刻画了神经过程(NP)架构的表征能力,证明了条件NP、注意力NP、卷积NP和Transformer NP之间存在严格的层级关系,并表明有限维潜变量不会将表征能力扩展到编码器之外。
本文将对高斯过程和潜在神经过程后验之间的预测KL散度分解为三项,提供了刻画近似误差的上界,并将表示维度与核平滑度联系起来。
SOLAR提出了一种自我优化的自主代理,利用参数级元学习和多层次强化学习,使LLMs能够对非平稳数据流进行终身适应,在推理任务上超越基线。
Jerry Tworek和François Chollet讨论通往AGI之路,涵盖智能的定义、游戏的作用以及为什么元学习是最接近的方法。
本文介绍了 NoiseRater,这是一种元学习框架,在扩散模型训练期间为各个噪声样本分配重要性评分,以提高训练效率和生成质量。
本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。
孟菲斯大学研究团队提出 HAMR——一种模型无关的元学习框架,通过双层优化与邻域感知重采样,在六个不平衡 NLP 数据集上自适应地为困难样本与少数类重新赋权。
FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法,该算法将奖励建模重新定义为元学习,使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集,在合成用户上实现了87%的个性化性能,在真实用户上实现了70%的个性化性能。
本文提出 ACSESS 方法,用于自动组合多种样本选择策略来改进少样本学习的性能,涵盖上下文学习和梯度优化两种方法。该工作在包含文本和图像两种模态的 14 个数据集上证明,策略组合的效果始终优于单个选择方法。