@_philschmid：Gemini Embedding 2 正式发布！一个能理解文本、图像、视频、音频和 PDF 的嵌入模型！5 种模态统一嵌入空间

X AI KOLs Following 2026/04/22 18:11 模型

摘要

Google 正式发布 Gemini Embedding 2，单一模型即可将文本、图像、视频、音频和 PDF 嵌入到统一空间，支持 100 多种语言，无需音频转录。

Gemini Embedding 2 正式发布！一个嵌入模型即可理解文本、图像、视频、音频和 PDF！5 种模态共享统一嵌入空间支持最长 8,192 输入 token，100+ 种语言原生嵌入音频，无需转录步骤灵活输出维度

查看原文

查看缓存全文

缓存时间: 2026/04/23 05:41

Gemini Embedding 2 现已正式发布！
一个能理解文本、图像、视频、音频和 PDF 的嵌入模型！
5 种模态，统一嵌入空间
支持最长 8,192 输入 token，100+ 种语言
音频原生嵌入，无需转录
输出维度灵活

相似文章

Google 的 Gemini Omni 将图像、音频和文本转化为视频——而这仅仅是个开始

TechCrunch AI

Google 发布了 Gemini Omni，这是一个多模态模型系列，能够从图像、音频和文本生成视频，跨输入进行推理以产生一致的高质量输出。首个模型 Gemini Omni Flash 将在 Google I/O 上向 Gemini 应用、YouTube Shorts 和 Flow 推出。

介绍 Gemini Omni：从任意内容生成任意内容

YouTube AI Channels

Google 推出 Gemini Omni，一种新的多模态 AI 模型，能够从任何输入类型处理并生成跨越文本、图像、音频和视频的内容。

推出 Gemini 2.0：我们为智能体时代打造的新型 AI 模型

Google DeepMind Blog

Google DeepMind 推出 Gemini 2.0，这是一款新型智能体 AI 模型，具备原生图像和音频输出、增强的工具使用能力和多模态功能，专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出，计划于 2025 年初实现更广泛的可用性。

Gemini 2.0 现已向所有人开放

Google DeepMind Blog

Google 宣布通过 API 正式推出 Gemini 2.0 Flash，并推出实验性的 Gemini 2.0 Pro（用于高级编码和推理任务），以及成本高效的 Gemini 2.0 Flash-Lite。所有模型都支持多模态输入和文本输出，并可通过 Google AI Studio、Vertex AI 和 Gemini 应用访问。

@GoogleDeepMind: 我们正在发布 Gemini Omni：这是我们迈向能够从任何内容创造任何内容的模型的第一步——从视频开始…

X AI KOLs

Google DeepMind 宣布推出 Gemini Omni，这是一种新型模型，它将 Gemini 的智能与生成式媒体系统相结合，能够从任何输入创建视频，标志着多模态人工智能的重大进步。