Gemini API 文件搜索现已支持多模态

Hacker News Top 2026/05/10 03:22 产品

gemini-api multimodal rag file-search google-ai developers

摘要

Google 已扩展 Gemini API 文件搜索工具以支持多模态数据，使开发者能够构建更高效且可验证的检索增强生成（RAG）系统，具备自定义元数据过滤和页面引用等功能。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/10 06:40

# Gemini API 文件搜索现已支持多模态：构建高效、可验证的 RAG 系统来源：https://blog.google/innovation-and-ai/technology/developers-tools/expanded-gemini-api-file-search-multimodal-rag/ 您的浏览器不支持音频元素。收听文章此内容由 Google AI 生成。生成式 AI 技术仍处于实验阶段。 [[duration]] 分钟今天，我们正式扩展了 Gemini API 的“文件搜索”（File Search）工具。您现在可以使用多模态数据和自定义元数据构建检索增强生成（RAG）系统。此外，我们还引入了页面引用功能，以增强内容的依据性（grounding）和透明度。无论您是在开发一个周末原型项目，还是在为成千上万的用户构建生产级应用，您的 RAG 系统现在都可以原生处理并更好地组织文本与视觉数据。 ## 赋予应用“过目不忘”的记忆力文件搜索现已能够同时处理图像和文本。借助 Gemini Embedding 2（https://deepmind.google/models/gemini/embedding/）模型，该工具能够理解原生图像数据，为您的智能体提供情境感知能力。试想一家创意机构正在寻找特定的视觉素材。您的应用不再需要依赖关键词或文件名，而是可以搜索整个档案库，找出符合自然语言简报中描述的特定情感基调或视觉风格的图像。看看开发者们已经开始如何使用这一功能： ## 使用自定义元数据过滤噪音将文件导入数据库很容易，但在大规模数据中精准找到目标文件才是真正的挑战。自定义元数据允许您为非结构化数据附加键值对标签——例如 `department: Legal`（部门：法务）或 `status: Final`（状态：最终版）。通过在查询时应用元数据过滤器，您的应用程序可以将请求范围缩小到所需的数据切片。这显著减少了无关文档带来的噪音，从而提高了 RAG 工作流的速度和准确性。 ## 通过页面引用展示依据当您的应用程序从海量 PDF 中提取答案时，用户需要核实该答案的具体出处。文件搜索现在将模型的响应直接与原始来源关联。它会记录每一条索引信息的页码。这种细粒度的精度可以让您直接指引用户到正确位置，这不仅有助于建立信任，也使您的工具在严谨的事实核查中立即发挥作用。 ## 开始使用文件搜索我们希望尽可能简化数据存储和检索过程，让您的创意得以实现。文件搜索工具承担了繁重的基础设施工作，让您专注于构建产品。上传文件并在其中进行搜索非常简单：在我们的开发者指南（https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878）和 Gemini API 文档（https://ai.google.dev/gemini-api/docs/file-search）中探索更多代码片段，学习如何使用文件搜索进行构建。

Gemini API 文件搜索现已支持多模态

相似文章

Gemini API 展示代理型 Gemini 模型

介绍 Gemini Omni：从任意内容生成任意内容

@_philschmid：Gemini Embedding 2 正式发布！一个能理解文本、图像、视频、音频和 PDF 的嵌入模型！5 种模态统一嵌入空间

Gemini 2.0 现已向所有人开放

Gemini for Science：人工智能实验与工具，开启新发现时代

提交意见反馈