Inside Google DeepMind: Reasoning, Omni, and Shipping Frontier AI
摘要
本文总结了Google DeepMind三位研究员关于推理、多模态生成(Omni)、编码与自我改进的深度对谈,强调视觉与动态思考将超越文本思维链,并探讨了世界模型和合成训练案例的未来趋势。
暂无内容
查看缓存全文
缓存时间: 2026/06/05 09:11
TL;DR: Google DeepMind三位研究员深入探讨推理、多模态生成(Omni)、编码与自我改进,以及思维过程的未来进化,强调视觉与动态思考将超越文本思维链。
## 引言:三位DeepMind核心成员的对谈
在AGI House的一次深度交流中,Google DeepMind的三位杰出研究员分享了他们关于推理、多模态模型(Omni)、编码以及前沿AI研发的独到见解。他们从个人经历出发,勾勒出当前AI发展的关键转折点。
## 嘉宾背景:从80年代到前沿实验室
### 第一位研究员:跨越Google Brain、OpenAI与DeepMind
这位研究员自2015年起长期专注于深度学习。他在Google Brain实习,后辗转OpenAI,最终回到DeepMind。早期研究极为技术性(如Gamma Softmax),旨在提高采样效率。大约四年前,他认定“数字AGI和物理AGI”的条件已经成熟,从此专注于前沿实验室,为打造最佳模型而全力以赴。
### 第二位研究员Jay:多模态生成的长期主义者
Jay一直倾向视觉方向。自2010年代生成式AI兴起,他深耕图像与多模态生成,参与了Imagine、Imagine Video,并最终主导Gemini Omni项目。他认为当前处于转折点:多模态生成模型不再是单纯产出图片或视频,而是“生成带有智能的内容”。
### 第三位研究员(谢尔盖):从Apple 2到DeepMind的传奇
谢尔盖回忆,80年代初他在Apple 2上编写了一个简单的反向传播感知机,当时被众人评价为“毫无前途”,这种认识使整个行业停滞了十年。后来他长期关注神经网络进展,直到一年半前才从Google X转入DeepMind。他形容这“不可思议”——起初极不擅长,必须快速学习,但如今拥有世界上最好的工作。他感叹世界日新月异,身在DeepMind从研究角度看到的进步几乎无法预测六个月后的未来。
## 编码与推理:自我改进与前沿用例
### 编码是最激动人心的领域
第一位研究员指出,编码是目前最令人兴奋的领域。四年前他就提出可以通过自我改进提升大模型,当时用数学举例,但编码能更清晰地展现整个过程。编码就像写下思考过程并让它运行,因此可以支持更长的推理链条并嵌入通用知识。
### 从离线到在线监督学习
他强调,真正的突破在于将可验证的奖励学习与有目标的自我改进结合。当前正从离线监督学习转向在线监督学习,这是达到100%准确率的必要条件。合理的目标是“从94%的模型做到95%的产品”,需要关注最后几个百分点的突破。
### Vibe Coding与层次化的软件工程
谢尔盖分享了他对“Vibe Coding”的痴迷:同时运行20个Gemini实例解决感兴趣的问题。他认为这不仅是写代码,更是推动模型思考算法和取得进展。从宏观角度看,过去清晰的层次——代码编写、软件工程、软件架构、UI设计——正在被模型重新经历。代码编写已接近完成(过去几个月几乎找不到Gemini写的代码片段是他能做得更好的),软件工程(管理1500万行代码的复杂性)仍在明显进步,而架构(涉及实际功能与硬件物理限制)仍是清晰的前沿。UI设计效果不错,世界模型和Nano Banana等技术提供了很好的启示。
## 世界模型与多模态:视频模型作为推理器
### 从Omni到世界模型的视角
Jay从Gemini Omni的经验出发,强调了世界模型的重要性。如果拥有一个良好的世界模型,就能更容易捕获要解决的问题——例如让模型生成某人解决复杂问题的过程,或为数学难题提出证明。世界模型的智能与其世界知识、理解和推理能力紧密相连。未来,强大的世界模型可以模拟物理,替代许多自然科学中的实验平台。
### 视频模型超越符号思考
第一位研究员提出,世界上大部分信息不仅包含在符号中,还包含在空间和时间信息里。半年前他们发表了论文《视频模型作为你的思考推理器》,认为视频模型可以访问数据中更丰富的信息。人类并不只用文本思考,尽管行业在文本推理上取得巨大进步,但在视觉方面仍处于初期。将视觉整合到模型的思考过程中前景光明。
## 思考过程的进化:超越文本思维链
### 思考的词汇更丰富
谢尔盖赞同思考过程还会大幅进化。许多写代码的人其思考并非英语,而是视觉或动态的。当前常用的“思维链”很棒,但可以做得更好——思考的词汇远比我们想象的多。代码作为验证推理是否正确的绝佳基准:模型主要在GitHub数据上训练,而其中大部分数据质量不高,但模型居然能工作,这本身令人惊讶。
### 合成训练案例的重要性
未来合成训练案例会变得至关重要,因为它们能超越人类编码能力。一个简单的例子:取一段代码,让模型用英语解释,再将英语给模型让它写代码,然后比较功能。这类方法迫使模型不仅要写代码,还要理解代码。这将是未来重大趋势。
## 结语与感谢
对谈在热烈的氛围中结束。三位研究员一致认为,AI推理、多模态生成和编码的进化才刚刚开始。感谢AGI House提供的交流平台,让前沿思考得以碰撞。
Source: [Inside Google DeepMind: Reasoning, Omni, and Shipping Frontier AI](https://youtu.be/ZVYq7uNhRCk)
相似文章
自动驾驶推理模型,ChatGPT引入广告,苹果与谷歌的协议,3D生成Pronto
Andrew Ng讨论了企业如何从渐进式AI效率提升转向变革性的工作流程重构,并以贷款处理为例。该通讯还涵盖了自动驾驶推理模型、ChatGPT广告、苹果与谷歌的交易以及3D生成等主题。
Gemini Omni
Gemini Omni 是 Google DeepMind 推出的新型 AI 模型,融合了推理与创意能力,支持多模态理解、视频编辑和内容生成,并内置安全措施和数字水印技术。
@FuSheng_0306: 看姚顺雨的访谈,Google的内部战略确实在全力以赴、迎头赶上了 Google之前和Open AI一直卷chatbot,好在gemini 3的效果还不错,把市占率提了上来。 可是Anthropic的崛起让谢尔盖·布林意识到大模型决战在写代…
文章讨论Google内部战略调整,面对OpenAI和Anthropic的竞争,Google在Gemini 3上取得效果,但意识到大模型决战在于写代码能力,体现公司追赶的急迫感。
@GoogleDeepMind:算法几乎存在于生活的方方面面,从自然世界的物理规律到规划航运路线……
Google DeepMind 强调其基于 Gemini 的编码智能体 AlphaEvolve 的广泛影响,展示了在基因组学、电网优化、地球科学和量子物理研究方面的重大进展。
@0xLogicrw: Google DeepMind 研究员 Lun Wang 宣布离职,并在一篇长文中彻底否定了现有的 AI 评测路线。 目前的评测系统全都在「刻舟求剑」,只能被动测试模型已经具备的能力,根本猜不到下一代模型会突然演化出什么新本事。比起数据、…
Google DeepMind 研究员 Lun Wang 离职并撰文批评现有 AI 评测体系,认为其落后于模型演化,无法预测新能力,导致业界处于「盲飞」状态。