标签
ComMem 提出了受生物记忆启发的互补记忆系统,以改进视觉语言模型的测试时自适应,在15个基准测试上超越了现有最先进方法。
本文提出了一种基于半监督学习的测试时自适应方法,用于AI文本检测,能够适应来自新LLM、对抗性人工化和时间漂移的持续分布变化,性能优于最先进的监督式检测器。
QGF 是一种强化学习算法,通过使用价值梯度来指导预训练的流策略,在测试时改进策略,避免了训练时的不稳定性,同时保持了竞争力的性能。
提出Demo2Reward,一种针对VLM奖励模型的测试时提示优化技术,利用少量专家演示,显著减少误报,并在无需额外模型训练的情况下改进机器人策略学习。
本文开发了一种用于测试时自适应的PAC-贝叶斯框架,该框架使用MMD球作为信度集,提供了形式化的泛化界,并在分布偏移下区分认知不确定性与偶然不确定性。
提出了面向奖励引导扩散的分层变分策略框架,在降低推理成本的同时实现高质量采样。在超分辨率等任务上展现了优异的质量-速度权衡。
SOLAR提出了一种自我优化的自主代理,利用参数级元学习和多层次强化学习,使LLMs能够对非平稳数据流进行终身适应,在推理任务上超越基线。
提出联邦嵌套学习(FedNL)框架,将联邦学习重构成三级嵌套优化系统,实现自指记忆的协同训练以支持测试时自适应,从而处理非独立同分布数据和长尾分布。
本文提出RMemSafe,一种用于持续测试时自适应的可靠性门控扩展方法,当冻结源的预测熵变高时会减弱源锚定,从而防止源崩溃下的盲目锚定。该方法在CCC基准测试上实现了最先进的错误率降低。
本文介绍了 TacoMAS,这是一个用于大语言模型驱动的多智能体系统中智能体能力与通信拓扑测试时共演化的框架。研究表明,与现有基线相比,联合调整快速能力环和慢速拓扑环能够提升性能并增强稳定性。
FAAST提出了一种前馈方法,通过解析方式将标注样本编译为快速权重,无需反向传播即可实现高效的测试时监督适应,在保持性能的同时提升90%以上的速度和节省95%的内存。
本文提出 CAP-TTA,一个测试时适应框架,利用由偏差风险分数触发的预调节 LoRA 更新,在叙述生成过程中缓解大语言模型的毒性和偏差问题,实现更快的优化和相比标准基线更好的流畅性。
TTL引入了一个测试时文本学习框架,用于使用CLIP等预训练视觉-语言模型进行OOD检测,该框架能够从未标记的测试流中动态学习OOD语义,无需外部OOD标签。该方法使用伪标记样本和OOD知识净化策略来提高检测的鲁棒性,应对多样化和不断演变的OOD分布。