标签
本文介绍了一种即插即用的校准模块,该模块在融合前调整多模态表示,利用跨模态上下文抑制误导信号,增强可靠信号,从而在多个基准测试上提升性能。
本文提出了一份正式的路线图,用于从晚期融合多模态方法向统一Transformer框架内的原生多模态建模(NMM)转型,根据输入-输出对偶性对现有模型进行分类,并系统性地讨论了架构协调、数据整理、训练方案和评估。
介绍CODA,一种GPU内核抽象,将Transformer操作表达为GEMM加尾声程序以减少数据移动,覆盖Transformer块中几乎所有非注意力计算。