@_philschmid:Gemini Embedding 2 正式发布!一个能理解文本、图像、视频、音频和 PDF 的嵌入模型!5 种模态统一嵌入空间

X AI KOLs Following 模型

摘要

Google 正式发布 Gemini Embedding 2,单一模型即可将文本、图像、视频、音频和 PDF 嵌入到统一空间,支持 100 多种语言,无需音频转录。

Gemini Embedding 2 正式发布!一个嵌入模型即可理解文本、图像、视频、音频和 PDF!5 种模态共享统一嵌入空间 支持最长 8,192 输入 token,100+ 种语言 原生嵌入音频,无需转录步骤 灵活输出维度
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/23 05:41

Gemini Embedding 2 现已正式发布!
一个能理解文本、图像、视频、音频和 PDF 的嵌入模型!
5 种模态,统一嵌入空间
支持最长 8,192 输入 token,100+ 种语言
音频原生嵌入,无需转录
输出维度灵活

相似文章

推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型

Google DeepMind Blog

Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。

Gemini 2.0 现已向所有人开放

Google DeepMind Blog

Google 宣布通过 API 正式推出 Gemini 2.0 Flash,并推出实验性的 Gemini 2.0 Pro(用于高级编码和推理任务),以及成本高效的 Gemini 2.0 Flash-Lite。所有模型都支持多模态输入和文本输出,并可通过 Google AI Studio、Vertex AI 和 Gemini 应用访问。

体验 Gemini 2.0 Flash 原生图像生成

Google DeepMind Blog

Google 向所有开发者开放 Gemini 2.0 Flash 原生图像生成功能,支持多模态文本和图像输出,可用于故事创作、对话式图像编辑以及需要世界理解和文本渲染的应用。

Gemini API 文件搜索现已支持多模态

Hacker News Top

Google 已扩展 Gemini API 文件搜索工具以支持多模态数据,使开发者能够构建更高效且可验证的检索增强生成(RAG)系统,具备自定义元数据过滤和页面引用等功能。