Inside Google DeepMind: Reasoning, Omni, and Shipping Frontier AI

Reddit r/singularity 2026/06/05 07:39 新闻

reasoning multimodal coding self-improvement world-models chain-of-thought deepmind

摘要

本文总结了Google DeepMind三位研究员关于推理、多模态生成（Omni）、编码与自我改进的深度对谈，强调视觉与动态思考将超越文本思维链，并探讨了世界模型和合成训练案例的未来趋势。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/05 09:11

TL;DR: Google DeepMind三位研究员深入探讨推理、多模态生成（Omni）、编码与自我改进，以及思维过程的未来进化，强调视觉与动态思考将超越文本思维链。 ## 引言：三位DeepMind核心成员的对谈在AGI House的一次深度交流中，Google DeepMind的三位杰出研究员分享了他们关于推理、多模态模型（Omni）、编码以及前沿AI研发的独到见解。他们从个人经历出发，勾勒出当前AI发展的关键转折点。 ## 嘉宾背景：从80年代到前沿实验室 ### 第一位研究员：跨越Google Brain、OpenAI与DeepMind 这位研究员自2015年起长期专注于深度学习。他在Google Brain实习，后辗转OpenAI，最终回到DeepMind。早期研究极为技术性（如Gamma Softmax），旨在提高采样效率。大约四年前，他认定“数字AGI和物理AGI”的条件已经成熟，从此专注于前沿实验室，为打造最佳模型而全力以赴。 ### 第二位研究员Jay：多模态生成的长期主义者 Jay一直倾向视觉方向。自2010年代生成式AI兴起，他深耕图像与多模态生成，参与了Imagine、Imagine Video，并最终主导Gemini Omni项目。他认为当前处于转折点：多模态生成模型不再是单纯产出图片或视频，而是“生成带有智能的内容”。 ### 第三位研究员（谢尔盖）：从Apple 2到DeepMind的传奇谢尔盖回忆，80年代初他在Apple 2上编写了一个简单的反向传播感知机，当时被众人评价为“毫无前途”，这种认识使整个行业停滞了十年。后来他长期关注神经网络进展，直到一年半前才从Google X转入DeepMind。他形容这“不可思议”——起初极不擅长，必须快速学习，但如今拥有世界上最好的工作。他感叹世界日新月异，身在DeepMind从研究角度看到的进步几乎无法预测六个月后的未来。 ## 编码与推理：自我改进与前沿用例 ### 编码是最激动人心的领域第一位研究员指出，编码是目前最令人兴奋的领域。四年前他就提出可以通过自我改进提升大模型，当时用数学举例，但编码能更清晰地展现整个过程。编码就像写下思考过程并让它运行，因此可以支持更长的推理链条并嵌入通用知识。 ### 从离线到在线监督学习他强调，真正的突破在于将可验证的奖励学习与有目标的自我改进结合。当前正从离线监督学习转向在线监督学习，这是达到100%准确率的必要条件。合理的目标是“从94%的模型做到95%的产品”，需要关注最后几个百分点的突破。 ### Vibe Coding与层次化的软件工程谢尔盖分享了他对“Vibe Coding”的痴迷：同时运行20个Gemini实例解决感兴趣的问题。他认为这不仅是写代码，更是推动模型思考算法和取得进展。从宏观角度看，过去清晰的层次——代码编写、软件工程、软件架构、UI设计——正在被模型重新经历。代码编写已接近完成（过去几个月几乎找不到Gemini写的代码片段是他能做得更好的），软件工程（管理1500万行代码的复杂性）仍在明显进步，而架构（涉及实际功能与硬件物理限制）仍是清晰的前沿。UI设计效果不错，世界模型和Nano Banana等技术提供了很好的启示。 ## 世界模型与多模态：视频模型作为推理器 ### 从Omni到世界模型的视角 Jay从Gemini Omni的经验出发，强调了世界模型的重要性。如果拥有一个良好的世界模型，就能更容易捕获要解决的问题——例如让模型生成某人解决复杂问题的过程，或为数学难题提出证明。世界模型的智能与其世界知识、理解和推理能力紧密相连。未来，强大的世界模型可以模拟物理，替代许多自然科学中的实验平台。 ### 视频模型超越符号思考第一位研究员提出，世界上大部分信息不仅包含在符号中，还包含在空间和时间信息里。半年前他们发表了论文《视频模型作为你的思考推理器》，认为视频模型可以访问数据中更丰富的信息。人类并不只用文本思考，尽管行业在文本推理上取得巨大进步，但在视觉方面仍处于初期。将视觉整合到模型的思考过程中前景光明。 ## 思考过程的进化：超越文本思维链 ### 思考的词汇更丰富谢尔盖赞同思考过程还会大幅进化。许多写代码的人其思考并非英语，而是视觉或动态的。当前常用的“思维链”很棒，但可以做得更好——思考的词汇远比我们想象的多。代码作为验证推理是否正确的绝佳基准：模型主要在GitHub数据上训练，而其中大部分数据质量不高，但模型居然能工作，这本身令人惊讶。 ### 合成训练案例的重要性未来合成训练案例会变得至关重要，因为它们能超越人类编码能力。一个简单的例子：取一段代码，让模型用英语解释，再将英语给模型让它写代码，然后比较功能。这类方法迫使模型不仅要写代码，还要理解代码。这将是未来重大趋势。 ## 结语与感谢对谈在热烈的氛围中结束。三位研究员一致认为，AI推理、多模态生成和编码的进化才刚刚开始。感谢AGI House提供的交流平台，让前沿思考得以碰撞。 Source: [Inside Google DeepMind: Reasoning, Omni, and Shipping Frontier AI](https://youtu.be/ZVYq7uNhRCk)

相似文章

自动驾驶推理模型，ChatGPT引入广告，苹果与谷歌的协议，3D生成Pronto

The Batch

Andrew Ng讨论了企业如何从渐进式AI效率提升转向变革性的工作流程重构，并以贷款处理为例。该通讯还涵盖了自动驾驶推理模型、ChatGPT广告、苹果与谷歌的交易以及3D生成等主题。

Gemini Omni

Hacker News Top

Gemini Omni 是 Google DeepMind 推出的新型 AI 模型，融合了推理与创意能力，支持多模态理解、视频编辑和内容生成，并内置安全措施和数字水印技术。

@FuSheng_0306: 看姚顺雨的访谈，Google的内部战略确实在全力以赴、迎头赶上了 Google之前和Open AI一直卷chatbot，好在gemini 3的效果还不错，把市占率提了上来。可是Anthropic的崛起让谢尔盖·布林意识到大模型决战在写代…

X AI KOLs Timeline

文章讨论Google内部战略调整，面对OpenAI和Anthropic的竞争，Google在Gemini 3上取得效果，但意识到大模型决战在于写代码能力，体现公司追赶的急迫感。

@GoogleDeepMind：算法几乎存在于生活的方方面面，从自然世界的物理规律到规划航运路线……

X AI KOLs

Google DeepMind 强调其基于 Gemini 的编码智能体 AlphaEvolve 的广泛影响，展示了在基因组学、电网优化、地球科学和量子物理研究方面的重大进展。

@0xLogicrw: Google DeepMind 研究员 Lun Wang 宣布离职，并在一篇长文中彻底否定了现有的 AI 评测路线。目前的评测系统全都在「刻舟求剑」，只能被动测试模型已经具备的能力，根本猜不到下一代模型会突然演化出什么新本事。比起数据、…

X AI KOLs Timeline

Google DeepMind 研究员 Lun Wang 离职并撰文批评现有 AI 评测体系，认为其落后于模型演化，无法预测新能力，导致业界处于「盲飞」状态。

相似文章

自动驾驶推理模型，ChatGPT引入广告，苹果与谷歌的协议，3D生成Pronto

Gemini Omni

@FuSheng_0306: 看姚顺雨的访谈，Google的内部战略确实在全力以赴、迎头赶上了 Google之前和Open AI一直卷chatbot，好在gemini 3的效果还不错，把市占率提了上来。 可是Anthropic的崛起让谢尔盖·布林意识到大模型决战在写代…

@GoogleDeepMind：算法几乎存在于生活的方方面面，从自然世界的物理规律到规划航运路线……

提交意见反馈

@FuSheng_0306: 看姚顺雨的访谈，Google的内部战略确实在全力以赴、迎头赶上了 Google之前和Open AI一直卷chatbot，好在gemini 3的效果还不错，把市占率提了上来。可是Anthropic的崛起让谢尔盖·布林意识到大模型决战在写代…