标签
本文介绍了Audio-Interaction,一种统一的流式音频模型,通过端到端框架将离线任务执行与实时音频指令跟随相结合。它提出了用于感知-决策-响应循环的SoundFlow,并在多个基准测试中评估了其具有竞争力的性能。
介绍了 Representation Forcing(RF),一种技术,使得统一多模态模型能够在没有外部VAE潜在空间的情况下端到端地执行感知和生成,在图像生成方面达到最先进的基于VAE的模型水平,同时提升理解能力。
Lumos-Nexus 是一个训练高效的视频生成框架,采用两阶段设计:训练时使用轻量级生成器,推理时使用高容量预训练生成器,通过统一渐进频率桥接实现增强的视觉保真度。
提出了一种统一神经缩放定律,能够精确建模深度神经网络在多个维度(包括参数量、数据集大小、训练步数和计算量)上的缩放行为,并在多种架构和任务上得到验证。
UniT是一种统一的几何感知前馈模型,采用分组自回归Transformer,集成了多种范式(在线/离线、多模态、长时域),同时通过自适应尺度损失和队列式KV缓存保持度量尺度精度。它在涵盖七个任务的十个基准上取得了最先进性能。
Uni-Edit提出使用智能图像编辑作为单一通用任务,以同时提升统一多模态模型的理解、生成和编辑能力,并配备自动化数据合成流程生成复杂的编辑指令。
Lance 是一个统一多模态模型,采用双流混合专家架构和协作式多任务训练,在图像和视频的理解、生成及编辑方面均表现出色,超越了现有的开源统一模型。
字节跳动研究团队推出Lance,一个30亿参数(3B参数)的统一多模态模型,在128块A100 GPU上从零开始训练,能够在单一框架内进行图像和视频的理解、生成和编辑。
Tuna-2 是一个统一的多模态模型,通过直接从像素嵌入处理视觉理解与生成任务,无需预训练视觉编码器,达到了最先进的性能水平。
UniCorn 是一个框架,通过使用多智能体系统进行提示生成、图像创建和质量评估,使统一多模态模型能够自我改进,在 TIIF、WISE 和 OneIG-EN 等文本到图像基准上取得了最先进的结果。