标签
DO-ALL 是一个即插即用框架,利用数据集蒸馏生成合成锚点来总结源数据,从而无需保留原始源数据即可实现稳定的长期持续测试时自适应。
本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。
介绍了一种基于基础模型的框架,用于CT影像与纵向EHR数据之间的跨模态表示对齐,以实现时间-事件预测,并在肺栓塞和心血管疾病队列上评估了融合策略。
MaskAlign提出了一种Token子集表征对齐方法,通过减少对完整Token集的依赖,并在扰动下保持稳定对齐,从而改进扩散Transformer训练。
本文提出通过学习鲁棒的语义锚点并使用几何感知相似度度量来改进相对表示,使得不同架构的独立训练模型之间能够实现近乎无损的信息传输和稳定的零样本通信。
本文研究了Platonic Representation Hypothesis,提出对齐源于表示中的线性结构,并引入了一个包含信号、偏置和噪声的统计框架。
LoMo 提出了一种数据整理方法,将单模态提示重新表述为交错的多模态序列,以改善视觉-语言模型中的跨模态表示对齐,在多个基准测试上取得了持续的性能提升。
本文介绍了 Repr-Align,一种通过表征对齐将自回归语言模型适配为扩散语言模型的方法,无需从头重新训练表征即可实现高达 4 倍的训练加速。
本文提出了 AnisoAlign 框架,该框架通过应用各向异性几何校正来解决多模态模型中的模态间隙问题,从而实现有效的非配对模态对齐。
本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。
本文提出了 UniSD,这是一种用于适应大型语言模型的统一自蒸馏框架,整合了监督可靠性、表征对齐和训练稳定性的机制。实验结果表明,UniSD 在多个基准测试中均优于基础模型和现有基线方法。
MMCORE 提出一个统一的多模态图像生成与编辑框架,将 VLM 语义嵌入与扩散条件对齐,无需昂贵融合或从零训练即可实现顶尖保真度。