audio-video-text

#audio-video-text

jina-embeddings-v5-omni：通过冻结塔组合实现文本几何保持的多模态嵌入

arXiv cs.CL ↗ · 2天前缓存

本文介绍了 jina-embeddings-v5-omni，这是一套多模态嵌入模型，通过冻结塔组合技术将文本嵌入扩展至图像、音频和视频。该方法仅训练总权重的 0.35%，在保持文本几何结构的同时，以显著降低的计算成本实现了极具竞争力的最先进性能。

0 人收藏 0 人点赞