audio-video-text

标签

Cards List
#audio-video-text

jina-embeddings-v5-omni:通过冻结塔组合实现文本几何保持的多模态嵌入

arXiv cs.CL · 2天前 缓存

本文介绍了 jina-embeddings-v5-omni,这是一套多模态嵌入模型,通过冻结塔组合技术将文本嵌入扩展至图像、音频和视频。该方法仅训练总权重的 0.35%,在保持文本几何结构的同时,以显著降低的计算成本实现了极具竞争力的最先进性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈