标签
MemTrain 提出了一种自监督训练框架,通过在维基百科语料上使用掩码重建和中间记忆召回代理任务,增强 LLM 智能体的上下文记忆能力,在下游记忆密集型 QA 基准上取得了高达 17.67 个百分点的提升。
MindZero 提出了一种自监督强化学习框架,用于训练多模态大语言模型,使其能够高效且鲁棒地进行在线心智推理,而无需心智状态标注,在准确性和效率上均优于基于模型的方法。
RayDer 是一个统一的前馈变换器,它将相机估计、场景重建和渲染整合到单一架构中,用于从真实世界视频进行自监督的新颖视图合成,实现了清晰的幂律扩展和强大的零样本性能。
SAVE框架通过使用价值函数对策略内响应进行评分,并通过对比目标更新模型,从而改善奖励模型训练,在六个基准测试中取得了优于其他方法的结果。
ChildVox 提出了一个全面的基准,用于分析儿童在不同发育阶段的声学交流,整合了来自17个以儿童为中心的音频和语音数据集的20多个子任务。
PilotWiMAE提出了一种自监督框架,直接接收含噪的导频观测进行无线信道表示学习,消除了不切实际的全CSI假设,并实现了优于监督基线的鲁棒跨频波束选择和信道估计。
本文提出一种方法,通过在测试时优化固定小样本提示的连续嵌入来改进上下文学习,该方法利用模型对数概率导出的自监督置信代理,无需微调或生成令牌。
下一隐式标记预测(NITP)通过在表示空间中添加密集的连续监督来增强语言模型预训练,从而在各种模型规模上以极小的计算开销提升泛化能力和性能。
介绍了时间对比变换器(TCT),一种用于从金融交易中学习时间嵌入的自监督框架,用于欺诈检测。仅使用嵌入时AUC达到0.8644,但并未超过强工程特征(AUC 0.9205 vs 0.9245),表明学习到的表示与现有特征存在重叠。
Black Forest Labs 在 AI Engineer 大会上分享了 Flux 系列模型的演进历程,并发布了 SelfFlow 研究论文,提出了一种无需外部编码器的自监督多模态训练方法。