首页
/
新闻
/
Google 所有新 AI 更新一网打尽(NotebookLM、Gemini 等)
Google 所有新 AI 更新一网打尽(NotebookLM、Gemini 等)
摘要
Google 推出了一系列重要的 AI 更新,最引人注目的是 NotebookLM 新增的由 Gemini 3 Pro 驱动的电影级视频生成功能以及代码驱动的动画效果。此次更新还包括 Gemini 的音乐创作能力、增强的演示文稿编辑功能,以及让免费用户更便捷地访问各种模型。
暂无内容
查看缓存全文
缓存时间:
2026/05/08 08:05
TL;DR: 谷歌发布了一系列重大 AI 更新,包括 NotebookLM 新的电影级视频生成和幻灯片编辑功能、通过“Producer”平台实现的 Gemini 音乐创作能力,以及免费用户对 Nano Banana 2 的增强访问权限。
## 谷歌产品爆发:15 项关键更新
谷歌最近迎来了一个产品发布的密集月,在其生态系统中引入了重大更新。本概述涵盖了约 15 项值得关注的重大发展,从 NotebookLM 的电影级视频概述和 Gemini 3.1 Pro 等高曝光功能,到全功能音乐生成平台等常被忽视的更新。
### NotebookLM:电影级视频概述
NotebookLM 中最引人注目的新功能之一是“电影级视频概述”。该功能由一个智能体视频模型驱动,该模型分析源材料以构思最佳结构和视觉风格,然后将任务分配给不同的模型以生成特定场景。
一个值得注意的演示涉及解释该功能本身的发布。该系统制作了一段五分钟的视频,突出了底层技术的精确度,特别是在使用 **Gemini 3 Pro** 时。
#### 通过代码驱动动画实现精确性
该系统利用 Gemini 3 Pro 编写过程动画的代码。标准视频生成模型通常在精确细节方面表现不佳,例如绘制具有特定历史边界的地图或可视化抽象数学概念。
* **历史准确性:** 系统生成了罗马帝国扩张至公元 117 年巅峰时期的动画。由于它是代码驱动的,可以高亮显示特定领土并放大,而线条不会失真或“幻觉”出不正确的地理信息。
* **抽象可视化:** 它成功地在实时中可视化了 QuickSort 算法,将混乱的数据点组织成可见的顺序。纯视觉生成无法达到这种事实精确度;底层代码生成引擎对于将复杂抽象逻辑转化为准确视觉至关重要。
#### 多模型编排
视频生成过程混合了多种工具:
* **Nano Banana:** 用于生成具有风格一致性的精确细节。
* **V3:** 在需要时处理标准视频生成。
* **自我纠正循环:** 系统包含一个自动自我批评周期,审查整个视频,编辑掉错误或叙事不一致之处。
虽然目前仅限于 **Ultra** 计划(未来计划向 Pro 用户推出),但其能力已经令人印象深刻。未来的更新旨在添加动态音乐、音效和多位配音演员,同时提高速度和降低成本。
#### 信息图表的新视觉风格
NotebookLM 现在提供信息图表的预设视觉风格。虽然自定义风格仍然可用,但预设提供了更快、更专业的效果。测试过的风格包括:
* **专业风格:** Bento 网格、教育、科学和专业风格。
* **创意风格:** 素描笔记、编辑风格、黏土动画、可爱风格、块状风格和动漫风格。
#### 幻灯片编辑
一项重大的生活质量改进是能够编辑生成的幻灯片。用户可以识别错误(如文字错位或拼写错误)并提交具体的修订指令。例如,要求删除特定文本或简化混乱区域。系统处理这些待定更改并重新生成幻灯片,有效地修复标题和格式问题。
#### 基于聊天的内容生成
用户现在可以直接从聊天面板生成内容,例如信息图表。用户不再依赖系统浏览所有源文件,而是可以根据对话历史提示生成特定摘要。例如,在长时间讨论 AI 视频模型架构后,提示“生成一个信息图表总结我们讨论的内容”会产生针对性的结果,而不是对所有上传文档的通用概述。
### Gemini:音乐生成与“Producer”平台
谷歌已将音乐生成能力集成到 Gemini 中,使用的是 **LIA 3** 模型。
#### Gemini 音乐集成
Gemini 作为一个多模态工具,接受各种输入格式并输出各种类型,包括音乐。
* **限制:** 目前每次会话限制为 30 次生成。
* **能力:** 用户可以输入简单的提示,例如“一首关于拍摄 YouTube 视频后必须制作缩略图的东海岸说唱歌曲”。生成速度快且风格准确,但仅限于适合与朋友分享的短片段。
#### Producer AI(前身为 Rift Fusion)
谷歌收购了 **Rift Fusion**,并将其重新品牌化为 **Producer**。该平台使用 LIA 3 进行生成,但其独特之处在于允许通过自然语言进行生成后编辑。
**示例 1:阿巴拉契亚死亡金属/蓝草音乐**
* **提示:** 一首关于负鼠在山区山谷中引发末日、从一个做最后抵抗的注定失败的登山者视角讲述的歌曲。元素包括失真吉他、爆裂鼓点、班卓琴扫弦、快速蓝草音乐、小提琴独奏和咆哮人声。
* **结果:** 生成速度快,并且准确捕捉了复杂且对比鲜明的流派混合。
* **编辑:** 用户可以请求更改,例如“让它更黑暗”。系统在保留核心元素的同时调整了氛围,展示了对广泛指令更改的强大遵循能力。
**示例 2:雷鬼/Roots Rap(根源说唱)**
* **提示:** 强烈、快节奏的雷鬼、根源说唱、深沉的低音线、粗糙/沙哑的女声、快速语速。
* **结果:** 输出存在一些怪癖,包括难以通过进一步提示修复的随机行重复。在与 **Suno** 的直接比较中,Suno 为该特定风格产生了更连贯的结果。然而,Producer 在其他许多流派中仍然是一个强大的竞争者。
**其他功能:**
* **Spaces:** 交互式环境,如合成器和鼓机(例如重力合成器)。
* **音乐视频:** 该平台可以生成完整的音乐视频,但这会消耗大量积分,且视觉效果不如音频质量令人印象深刻。
### Nano Banana 2:增强免费层级访问权限
对于免费层级用户的一个重大更新是增加了对 **Nano Banana 2** 的访问权限。
* **先前限制:** 免费用户每天使用较优的 Nano Banana Pro 模型生成 2-3 次后,会被降级为原始的低质量 Nano Banana 模型。
* **新限制:** 免费用户现在可以使用 Nano Banana 2 每天生成多达 **20 张图片**。
* **性能:** 主要改进是速度。生成大约需要 **10-15 秒**,而 Pro 版本的时间大约是其两倍。
* **灵活性:** 付费用户可以在 Nano Banana 2 和 Pro 之间切换。如果生成失败或需要选项,用户可以点击“用 Pro 重做”以在更快的标准模型和更高质量的 Pro 模型之间切换。
### 赞助工具:Manis AI Agent
该视频还介绍了 **Manis**,一种 AI 智能体,它协调多个模型来独立处理复杂的多步骤任务。
#### 能力
Manis 分析目标,规划执行步骤,并返回实质性的、即用型结果,而无需不断提示。
* **示例工作流:** 研究一个主题(AI 智能体),分析 YouTube 评论中的常见问题,在 Reddit 上搜索痛点,并编制一份带有 B-roll 图片的报告。输出结果组织良好,视觉一致且具有交互性。
#### 技能系统
Manis 允许用户将工作流打包为可重用的“技能”。
* **技能创建器:** 通过使用 `/skill creator` 命令,Manis 分析先前任务的工具、流程和输出,以创建可重用的工作流。
* **用例:**
* **信息图表纠错:** 一个自动识别并修复复杂信息图表中拼写错误或布局问题的技能。
* **YouTube 描述生成器:** 一个观看视频、提取章节并以创作者首选格式格式化完整 YouTube 描述的技能。
该系统平衡了易用性和强大结果,允许用户自动化重复的研究和格式任务。
来源:Futurepedia - 一个视频中包含的所有谷歌 AI 新更新 (https://www.youtube.com/watch?v=aqabuf3zjag)
相似文章
X AI KOLs
Google 宣布其 AI 创意工作室 Flow 的更新,包括新的 Gemini Omni Flash 模型,用于多模态视频编辑,具有改进的角色一致性;Flow Agent 用于协作规划和批量编辑;以及通过自然语言创建自定义工具。还推出了新的移动应用和音乐生成模型 Lyria 3 Pro。
TechCrunch AI
Google 在 Google I/O 上宣布对其 Gemini 应用进行重大更新,包括 Daily Brief 功能、重新设计的 Neural Expressive 界面、名为 Gemini Spark 的个人 AI 代理,以及集成新的 Gemini Omni 视频模型,以与 ChatGPT 和 Claude 竞争。
Google AI Blog
谷歌在2026年5月宣布了重大AI更新,包括Gemini 3.5模型、用于多模态生成的Gemini Omni,以及Googlebook、Fitbit Air和Google Health应用等新硬件和健康工具。
Google AI Blog
Google 公布了 2026 年 3 月的 AI 更新计划,核心目标是提升 Gemini 的上下文感知能力,使其在日常生活中更加实用贴心。主要更新包括 Search Live 全球范围上线、生产力应用内置 AI 工具增强、Google Maps 推出 AI 升级功能,以及大幅简化用户从其他 AI 助手切换过来的流程。
Google DeepMind Blog
谷歌发布 Gemini 2.5 系列更新,包括性能改进的 2.5 Pro 和 Flash 模型,新增功能包括 Deep Think(增强型推理模式)、原生音频输出和通过 Project Mariner 实现的计算机使用能力。这些模型现已在 WebDev Arena 和 LMArena 排行榜中领先。