标签
本文提出AnyMo,一种统一的多模态人体运动生成框架,结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer,并利用包含超过5000小时运动数据的OmniHuMo数据集,实现在任意模态组合下的高质量合成。
AudioMosaic 提出了一种基于对比学习的音频编码器,通过对频谱图块应用结构化时频掩码来构建正样本对,实现高效的大批量训练,在音频基准测试中达到最先进性能,并提升了音频-语言模型的效果。
CSI-JEPA是一个自监督框架,从无标签的Wi-Fi信道状态信息中学习可复用的表征,实现标签高效的多任务感知。它能节省高达98%的标签,并优于监督模型。