首页
/
新闻
/
我们构建通用AI助手的愿景
我们构建通用AI助手的愿景
摘要
Google DeepMind 宣布计划将 Gemini 2.5 Pro 扩展为通用AI助手,具备世界建模、规划和模拟世界各个方面的能力。该愿景整合了来自 AlphaGo、Genie 2 及其他项目的突破性进展,旨在推进人工通用智能(AGI)的发展。
我们正在扩展 Gemini,使其成为一个世界模型,能够通过模拟世界的各个方面来制定计划并想象新的体验。
查看缓存全文
缓存时间:
2026/04/20 08:35
# 我们建立通用AI助手的愿景
来源:https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-universal-ai-assistant/
我们正在扩展 Gemini,使其成为一个能够通过模拟世界各个方面来制定计划和想象新体验的世界模型。
抽象插图:发光的矩形靠近一个发光的白色圆点
在本故事中
- Project Astra 的实时功能 (https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-universal-ai-assistant/#live-capabilities)
- 可以为你执行多任务的 AI (https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-universal-ai-assistant/#agentic-capabilities)
在过去的十年里,我们为现代 AI 时代奠定了许多基础,从开创所有大语言模型所基于的 [Transformer](https://research.google/blog/transformer-a-novel-neural-network-architecture-for-language-understanding/) 架构,到开发能像 [AlphaGo](https://deepmind.google/research/breakthroughs/alphago/) 和 [AlphaZero](https://deepmind.google/research/breakthroughs/alphazero-and-muzero/?_gl=1*1pz0hjt*_up*MQ..*_ga*MTU3NjU3MjE3OC4xNzQ3MzA4NjIy*_ga_LS8HVHCNQ0*czE3NDczMDg2MjEkbzEkZzAkdDE3NDczMDkwMTIkajAkbDAkaDA.) 一样学习和规划的智能体系统。
我们已将这些技术应用于在[量子计算](https://blog.google/technology/google-deepmind/alphaqubit-quantum-error-correction/)、[数学](https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/?_gl=1*1bl3hx2*_up*MQ..*_ga*MTU3NjU3MjE3OC4xNzQ3MzA4NjIy*_ga_LS8HVHCNQ0*czE3NDczMDg2MjEkbzEkZzAkdDE3NDczMDkzMzYkajAkbDAkaDA.)、[生命科学](https://deepmind.google/discover/blog/alphaproteo-generates-novel-proteins-for-biology-and-health-research/?_gl=1*1dmnab3*_up*MQ..*_ga*MTU3NjU3MjE3OC4xNzQ3MzA4NjIy*_ga_LS8HVHCNQ0*czE3NDczMDg2MjEkbzEkZzAkdDE3NDczMDk0NjEkajAkbDAkaDA.)和[算法发现](https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/?_gl=1*16es8jk*_up*MQ..*_ga*MTU3NjU3MjE3OC4xNzQ3MzA4NjIy*_ga_LS8HVHCNQ0*czE3NDczMDg2MjEkbzEkZzAkdDE3NDczMDkzMzQkajAkbDAkaDA.)方面取得突破。我们继续在基础研究的广度和深度上加倍投入,致力于发明实现人工通用智能(AGI)所需的下一个重大突破。
这就是为什么我们致力于扩展我们最好的多模态基础模型 Gemini 2.5 Pro,使其成为一个"世界模型",能够通过理解和模拟世界各个方面来制定计划和想象新体验,就像大脑所做的那样。
我们在这个方向上已经取得了进展,从我们先驱性的工作训练智能体掌握复杂游戏如 [Go](https://deepmind.google/research/breakthroughs/alphago/) 和 [StarCraft](https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/),到构建 [Genie 2](https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/),它能够从单个图像提示生成可交互的3D模拟环境。
我们已经可以看到这些能力在 Gemini 中出现的证据,包括它使用世界知识和推理来表示和[模拟自然环境](https://www.youtube.com/watch?v=zvouDoWL6fk)的能力、[Veo](https://deepmind.google/technologies/veo/veo-2/?_gl=1*69oxzg*_up*MQ..*_ga*MTU3NjU3MjE3OC4xNzQ3MzA4NjIy*_ga_LS8HVHCNQ0*czE3NDczMTg1MzMkbzMkZzAkdDE3NDczMTg1MzMkajAkbDAkaDA.) 对直觉物理的深刻理解,以及 [Gemini Robotics](https://deepmind.google/technologies/gemini-robotics/?_gl=1*6jv8a4*_up*MQ..*_ga*MTU3NjU3MjE3OC4xNzQ3MzA4NjIy*_ga_LS8HVHCNQ0*czE3NDczMTg1MzMkbzMkZzAkdDE3NDczMTg3ODAkajAkbDAkaDA.) 教机器人抓取、遵循指令和即时调整的方式。
让 Gemini 成为世界模型是开发一种新的、更通用、更有用的 AI 的关键步骤——一个通用 AI 助手。这是一个聪慧的 AI,理解你所处的背景,能够跨任何设备为你规划和采取行动。
## 将 Project Astra 的实时功能引入我们的产品
我们的最终愿景是将 [Gemini 应用](https://blog.google/products/gemini/gemini%E2%80%93app-updates-io-2025)转变为一个通用 AI 助手,为我们执行日常任务、处理繁琐的行政工作,并提供令人愉悦的新建议——让我们更有效率并丰富我们的生活。
这从我们去年在研究原型 [Project Astra](https://deepmind.google/technologies/project-astra/?_gl=1*1ueecac*_up*MQ..*_ga*MjU3NzU4MzA2LjE3NDU4NTM0ODU.*_ga_LS8HVHCNQ0*MTc0NTg1MzQ4Mi4xLjAuMTc0NTg1MzQ4OS4wLjAuMA..) 中首次探索的功能开始,例如视频理解、屏幕共享和记忆。
在过去一年里,我们一直在将这些功能集成到 [Gemini Live](https://gemini.google/overview/gemini-live/?hl=en) 中,供更多人今天体验。我们继续不懈地改进并在前沿探索新创新。例如,我们升级了语音输出以使用原生音频更自然,改进了记忆并添加了计算机控制。
我们现在正在从受信任的测试人员那里收集关于这些功能的反馈,并努力将它们引入 [Gemini Live](https://gemini.google/overview/gemini-live/?hl=en)、[搜索](https://blog.google/products/search/google-search-ai-mode-update/)中的新体验、开发者的 [Live API](https://ai.google.dev/gemini-api/docs/live) 和新的形态因素,如眼镜。
在这个过程的每一步中,安全和责任都是我们工作的核心。我们最近进行了一个大型研究项目,探索[高级 AI 助手的伦理问题](https://deepmind.google/discover/blog/the-ethics-of-advanced-ai-assistants/),这项工作继续为我们的研究、开发和部署提供信息。
## 构建能为你执行多任务的 AI
我们还一直在探索智能体能力如何帮助人们执行多任务,通过 [Project Mariner](https://deepmind.google/project-mariner)。这是一个研究原型,探索人与智能体互动的未来,首先从浏览器开始。
自去年12月[推出 Project Mariner](https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#project-mariner) 以来,我们一直与一群受信任的测试人员密切合作,收集反馈并改进其实验功能。
Project Mariner 现在包括一个能同时完成多达10项不同任务的智能体系统。这些智能体可以帮你查找信息、进行预订、购买东西、进行研究等——都在同一时间。
更新后的 Project Mariner 已向美国的 [Google AI Ultra](https://blog.google/products-and-platforms/products/google-one/google-ai-ultra/) 订阅者提供。我们正在将其计算机使用功能引入 [Gemini API](https://ai.google.dev/),并计划在今年全年将其更多功能引入 Google 产品。在[搜索](https://blog.google/products/search/google-search-ai-mode-update)和 [Gemini 应用](https://blog.google/products/gemini/gemini%E2%80%93app-updates-io-2025)中了解有关我们智能体能力的更多信息。
通过这项工作以及我们所有突破性的研究,我们正在构建更加个性化、主动和强大的 AI,丰富我们的生活,推进科学进步的步伐,并开启发现和惊奇的新黄金时代。
风格化3D文字"IO25",充满活力的渐变色,白色网格背景。
## 在你的收件箱中获取来自 Google 的更多故事。
完成。还需一步。
检查你的收件箱以确认订阅。
你已经订阅了我们的新闻通讯。
你也可以通过以下方式订阅
相似文章
Google DeepMind Blog
Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。
Google DeepMind Blog
Google DeepMind 推出 Gemini Robotics,这是一个基于 Gemini 2.0 的视觉-语言-动作模型,可以控制物理机器人,具有更强的通用性、交互性和灵巧性。该公司还推出了用于空间推理的 Gemini Robotics-ER,并与 Apptronik 合作开发人形机器人。
Google DeepMind Blog
Google DeepMind 推出 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5,推进了物理 AI 智能体的发展,这些智能体能够感知、规划、思考和行动来完成复杂的多步骤任务。Gemini Robotics-ER 1.5 现已通过 Gemini API 向开发者提供。
Google DeepMind Blog
Google推出了Gemini 2.5,这是其最智能的AI模型。Gemini 2.5 Pro Experimental在LMArena基准测试中领先优势显著,并通过改进的思维模型架构展现了增强的推理和编码能力。
Google AI Blog
Google 公布了 2026 年 3 月的 AI 更新计划,核心目标是提升 Gemini 的上下文感知能力,使其在日常生活中更加实用贴心。主要更新包括 Search Live 全球范围上线、生产力应用内置 AI 工具增强、Google Maps 推出 AI 升级功能,以及大幅简化用户从其他 AI 助手切换过来的流程。