标签
本文研究了在固定推理预算下,网络代理的在线技能和记忆模块是否值得其令牌成本,发现预算匹配的朴素基线方法在三个领域和模型上通常与增强方法性能相当或更优。
本文研究了一种用于微预训练的分阶段提升协议,使用从分钟到小时递增的预算来筛选配置。研究发现,早期筛选是有用的但不稳定,并且分阶段方法可以保留长期参考,同时识别出未能通过继续阈值的替代方案。
本文提出了一种适用于预算受限微预训练的分阶段因子筛选工作流,表明短期的设计实验能够识别稳定的超参数惩罚方向,并支持“筛选-优化”策略。