Google DeepMind 在 NeurIPS 2024
摘要
Google DeepMind 宣布在 NeurIPS 2024 上展示 100 多篇论文,涵盖自适应 AI 智能体、3D 场景生成和大语言模型训练安全,包括具有影响力的基础工作时间检验奖以及 Gemma Scope 等应用的现场演示。
推进自适应 AI 智能体,赋能 3D 场景生成,以及创新大语言模型训练,打造更智能、更安全的未来
查看缓存全文
缓存时间: 2026/04/20 08:36
# Google DeepMind 在 NeurIPS 2024 的工作
来源:https://deepmind.google/blog/google-deepmind-at-neurips-2024/
2024年12月5日 研究
推进自适应 AI 代理、赋能 3D 场景创作,以及创新 LLM 训练,共同打造更智能、更安全的未来
下周,全球 AI 研究人员将齐聚第38届神经信息处理系统年会 (https://neurips.cc/)(NeurIPS),会议将于12月10-15日在温哥华召开。
由 Google DeepMind 研究人员主导的两篇论文将获得《时间的考验》(https://blog.neurips.cc/2024/11/27/announcing-the-neurips-2024-test-of-time-paper-awards/) 奖项,以表彰其对该领域"不可否认的影响"。Ilya Sutskever 将展示《用神经网络进行序列到序列学习》(https://arxiv.org/abs/1409.3215),该论文与 Google DeepMind VP of Drastic Research Oriol Vinyals 及杰出科学家 Quoc V. Le 合著。Google DeepMind 科学家 Ian Goodfellow 和 David Warde-Farley 将展示《生成对抗网络》(https://arxiv.org/abs/1406.2661)。
我们还将展示如何将基础研究转化为实际应用,包括现场演示 Gemma Scope (https://deepmind.google/discover/blog/gemma-scope-helping-the-safety-community-shed-light-on-the-inner-workings-of-language-models/)、音乐生成 AI (https://deepmind.google/discover/blog/new-generative-ai-tools-open-the-doors-of-music-creation/)、天气预报 (https://deepmind.google/research/publications/24820/) 等。
Google DeepMind 全部团队将展示超过 100 篇新论文,涵盖 AI 代理、生成式媒体到创新学习方法等众多主题。
## 构建自适应、智能且安全的 AI 代理
基于 LLM 的 AI 代理在通过自然语言命令执行数字任务方面展现了希望。然而,其成功取决于与复杂用户界面的精确交互,这需要大量训练数据。通过 AndroidControl (https://neurips.cc/virtual/2024/poster/97433),我们分享了迄今为止最多样化的控制数据集,包含超过 800 个应用中收集的 15,000 多个人类演示。使用此数据集训练的 AI 代理显示性能显著提升,我们希望这能推进更通用 AI 代理研究的发展。
为了使 AI 代理能够跨任务泛化,它们需要从遇到的每次经历中学习。我们提出了一种 in-context 抽象学习 (https://neurips.cc/virtual/2024/poster/96600) 的方法,帮助代理从不完美的演示和自然语言反馈中掌握关键任务模式和关系,增强其性能和适应性。
一段视频演示截图,展示有人制作酱料,各个元素被识别和编号。ICAL 能够提取流程的重要方面
开发能够履行用户目标的智能代理可以使技术更加实用,但在开发代替我们行动的 AI 时,对齐是关键。为此,我们提出了一个理论方法来衡量 AI 系统的目标导向性 (https://neurips.cc/virtual/2024/poster/93645),并展示了模型对其用户的感知如何影响其安全过滤器 (https://neurips.cc/virtual/2024/poster/94269)。这些见解共同强调了采用强大安全措施的重要性,以防止意外或不安全的行为,确保 AI 代理的行动与安全、预期的用途保持一致。
## 推进 3D 场景创作和模拟
随着游戏和视觉效果等行业对高质量 3D 内容需求的增长,创建逼真的 3D 场景仍然成本高昂且耗时。我们最近的工作引入了新颖的 3D 生成、模拟和控制方法,简化了内容创作流程,实现了更快、更灵活的工作流。
生成高质量、逼真的 3D 资产和场景通常需要捕捉和建模数千张 2D 照片。我们展示了 CAT3D (https://neurips.cc/virtual/2024/poster/95046),一个能在短短一分钟内从任意数量的图像(甚至仅一张图像或文本提示)创建 3D 内容的系统。CAT3D 通过多视图扩散模型实现这一目标,该模型从许多不同视角生成额外的一致 2D 图像,并将这些生成的图像用作传统 3D 建模技术的输入。其结果在速度和质量上都超过了以往方法。
CAT3D 能够从任意数量的生成或真实图像创建 3D 场景。
从左到右:文本到图像到 3D、真实照片到 3D、多张照片到 3D。
模拟包含许多刚体的场景,如凌乱的桌面或翻倒的乐高积木,在计算上也仍然很密集。为了克服这个障碍,我们介绍了一种称为 SDF-Sim (https://neurips.cc/virtual/2024/poster/95252) 的新技术,以可扩展的方式表示物体形状,加快碰撞检测并支持高效模拟大型、复杂场景。
数百只鞋子掉落和碰撞的复杂模拟,使用 SDF-Sim 精确建模
基于扩散模型的 AI 图像生成器难以控制多个物体的 3D 位置和方向。我们的解决方案 Neural Assets (https://neural-assets.github.io/) 引入了对象特定的表示,可捕捉外观和 3D 姿态,通过动态视频数据的训练学习。Neural Assets 使用户能够在场景中移动、旋转或交换物体——这是动画、游戏和虚拟现实的有用工具。
给定源图像和物体 3D 边界框,我们可以平移、旋转和缩放物体,或在图像之间传输物体或背景
## 改进 LLM 的学习和响应方式
我们还在推进 LLM 的训练、学习和响应方式,在多个方面提高了性能和效率。
随着更大的上下文窗口,LLM 现在可以一次从数千个示例中学习——称为多轮 in-context 学习(ICL)。这个过程可以提升模型在数学、翻译和推理等任务上的性能,但通常需要高质量的人工生成数据。为了使训练更具成本效益,我们探索了适配多轮 ICL (https://neurips.cc/virtual/2024/poster/96277) 的方法,以减少对手动精选数据的依赖。可用于训练语言模型的数据非常丰富,构建它们的团队面临的主要限制变成了可用的计算量。我们处理了一个重要问题 (https://arxiv.org/pdf/2405.15074):在固定的计算预算下,你如何选择合适的模型大小来取得最佳结果?
另一种创新方法,我们称之为时间反转语言模型 (https://neurips.cc/virtual/2024/poster/93684)(TRLM),探索预训练和微调 LLM 以反向工作。当给定传统 LLM 响应作为输入时,TRLM 会生成可能产生这些响应的查询。当与传统 LLM 配对时,这种方法不仅有助于确保响应更好地遵循用户指示,而且改进了汇总文本的引文生成,并增强了对有害内容的安全过滤。
为大型 AI 模型训练整理高质量数据至关重要,但手动整理在大规模应用中很困难。为了解决这个问题,我们的联合示例选择 (https://neurips.cc/virtual/2024/poster/97437)(JEST)算法通过识别更大批次中最易学习的数据来优化训练,使训练轮次减少高达 13 倍,计算量减少 10 倍,超越了最先进的多模态预训练基准。
规划任务是 AI 的另一个挑战,特别是在随机环境中,其中结果受随机性或不确定性的影响。研究人员为规划使用各种推理类型,但没有一致的方法。我们证明了规划本身可以被视为一种独特的概率推理类型 (https://neurips.cc/virtual/2024/poster/95030),并提出了一个框架来根据不同推理技术的规划有效性对其进行排名。
## 汇聚全球 AI 社群
我们很荣幸成为该会议的钻石赞助商,并支持《机器学习中的女性》(https://docs.google.com/document/d/1Yi_76ABz08xzF5On0h_vdob1wAl8LAAB4CvwfwJcjY8/edit?tab=t.0)、LatinX in AI (https://www.latinxinai.org/) 和黑人 AI (https://www.blackinai.org/) 在全球建设 AI、机器学习和数据科学社区。
如果你今年在 NeurIPS,请来 Google DeepMind 和 Google Research (https://research.google/conferences-and-events/google-at-neurips-2024/) 的展位,在整个会议期间通过演示、研讨会等探索尖端研究。
相似文章
@aiDotEngineer:DeepMind 开源模型家族 Gemma https://youtube.com/watch?v=_gVFUEdhCyI… 在 Gemma 4 发布后首次公开演讲中…
Google DeepMind 的 Gemma 系列开源模型下载量已突破 5 亿次,被誉为“单位比特能力最高”的开源大语言模型。
2026 年 4 月发布的最新 AI 新闻
Google 发布了 2026 年 4 月的主要 AI 更新汇总,包括 Gemma 4 模型、Gemini 企业智能体平台以及在 Cloud Next '26 上宣布的第八代 TPU。
Google DeepMind 研究副总裁 Raia Hadsell 谈如何为 Gemini 探索 AI 的下一个前沿
Google DeepMind 研究副总裁 Raia Hadsell 讨论了公司推动 Gemini 进步并探索 AI 能力下一个前沿的研究方向。
Gemma 4:同等参数规模下能力最强的开源模型
Google DeepMind 发布 Gemma 4,这是其迄今为止能力最强的开源模型系列,专为高级推理和智能体工作流设计,在多种参数规模下均实现了极高的智能密度。
google/gemma-4-31B-it-assistant
Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。