Gemini API 文件搜索现已支持多模态

Hacker News Top 产品

摘要

Google 已扩展 Gemini API 文件搜索工具以支持多模态数据,使开发者能够构建更高效且可验证的检索增强生成(RAG)系统,具备自定义元数据过滤和页面引用等功能。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/10 06:40

# Gemini API 文件搜索现已支持多模态:构建高效、可验证的 RAG 系统 来源:https://blog.google/innovation-and-ai/technology/developers-tools/expanded-gemini-api-file-search-multimodal-rag/ 您的浏览器不支持音频元素。 收听文章 此内容由 Google AI 生成。生成式 AI 技术仍处于实验阶段。 [[duration]] 分钟 今天,我们正式扩展了 Gemini API 的“文件搜索”(File Search)工具。您现在可以使用多模态数据和自定义元数据构建检索增强生成(RAG)系统。此外,我们还引入了页面引用功能,以增强内容的依据性(grounding)和透明度。 无论您是在开发一个周末原型项目,还是在为成千上万的用户构建生产级应用,您的 RAG 系统现在都可以原生处理并更好地组织文本与视觉数据。 ## 赋予应用“过目不忘”的记忆力 文件搜索现已能够同时处理图像和文本。借助 Gemini Embedding 2(https://deepmind.google/models/gemini/embedding/)模型,该工具能够理解原生图像数据,为您的智能体提供情境感知能力。 试想一家创意机构正在寻找特定的视觉素材。您的应用不再需要依赖关键词或文件名,而是可以搜索整个档案库,找出符合自然语言简报中描述的特定情感基调或视觉风格的图像。 看看开发者们已经开始如何使用这一功能: ## 使用自定义元数据过滤噪音 将文件导入数据库很容易,但在大规模数据中精准找到目标文件才是真正的挑战。自定义元数据允许您为非结构化数据附加键值对标签——例如 `department: Legal`(部门:法务)或 `status: Final`(状态:最终版)。 通过在查询时应用元数据过滤器,您的应用程序可以将请求范围缩小到所需的数据切片。这显著减少了无关文档带来的噪音,从而提高了 RAG 工作流的速度和准确性。 ## 通过页面引用展示依据 当您的应用程序从海量 PDF 中提取答案时,用户需要核实该答案的具体出处。 文件搜索现在将模型的响应直接与原始来源关联。它会记录每一条索引信息的页码。这种细粒度的精度可以让您直接指引用户到正确位置,这不仅有助于建立信任,也使您的工具在严谨的事实核查中立即发挥作用。 ## 开始使用文件搜索 我们希望尽可能简化数据存储和检索过程,让您的创意得以实现。文件搜索工具承担了繁重的基础设施工作,让您专注于构建产品。 上传文件并在其中进行搜索非常简单: 在我们的开发者指南(https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878)和 Gemini API 文档(https://ai.google.dev/gemini-api/docs/file-search)中探索更多代码片段,学习如何使用文件搜索进行构建。

相似文章

Gemini 2.0 现已向所有人开放

Google DeepMind Blog

Google 宣布通过 API 正式推出 Gemini 2.0 Flash,并推出实验性的 Gemini 2.0 Pro(用于高级编码和推理任务),以及成本高效的 Gemini 2.0 Flash-Lite。所有模型都支持多模态输入和文本输出,并可通过 Google AI Studio、Vertex AI 和 Gemini 应用访问。

Google Gemini 悄悄解锁隐藏超能力

YouTube AI Channels

Google 悄然为 Gemini 加入读取并推理 NotebookLM 笔记本的能力,让用户把带引用的私有文档与实时网页搜索融合,实现更快速、有依据的研究与创意流程。

Gemini 3 开启智能新时代

Google DeepMind Blog

Google 发布了其迄今为止最智能的模型 Gemini 3,具备增强的推理能力和多模态功能。该模型现已集成到 Google 各产品中,面向 Ultra 订阅用户的「深度思考」复杂问题求解模式即将推出。