DolphinGemma:Google AI 如何帮助破译海豚通信

Google DeepMind Blog 产品

摘要

Google 开发了 DolphinGemma,一个大语言模型,旨在学习和生成海豚的鸣叫声。该项目与乔治亚理工学院和 Wild Dolphin Project 合作,旨在推进对海豚沟通模式的理解,并实现潜在的物种间对话。

DolphinGemma 是由 Google 开发的大语言模型,正在帮助科学家们研究海豚如何交流——希望也能弄清楚它们在说什么。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:36

# DolphinGemma:谷歌人工智能如何帮助破译海豚通讯 来源:https://blog.google/innovation-and-ai/products/dolphingemma/ DolphinGemma 是谷歌开发的一个大型语言模型,它正在帮助科学家研究海豚如何进行通讯——并有望最终理解它们在说什么。 Thad 头像 Dr. Thad Starner 谷歌 DeepMind 研究科学家和佐治亚理工学院教授 数十年来,理解海豚的咔哒声、哨音和突发脉冲一直是科学的前沿阵地。如果我们不仅能够倾听海豚,还能够充分理解它们复杂通讯的模式,甚至生成逼真的回应,会怎样呢? 今天是国家海豚日,谷歌携手佐治亚理工学院的研究人员和野生海豚项目 (https://www.wilddolphinproject.org/)(WDP)的实地研究成果,宣布在 DolphinGemma 上取得进展:这是一个基础性的人工智能模型,经过训练可以学习海豚叫声的结构,并生成逼真的类海豚声音序列。这种跨物种通讯的探索方式突破了人工智能的界限,也扩展了我们与海洋世界的潜在联系。 ## 数十年来对海豚社会的研究 要理解任何物种,都需要深入的背景知识,而这正是 WDP 提供的众多东西之一。自 1985 年以来,WDP 进行了世界上历时最长的水下海豚研究项目,在巴哈马研究一个特定的野生大西洋斑点海豚(Stenella frontalis)群落,跨越多代。这种非侵入式的"在它们的世界里,按它们的规则"的方法产生了丰富而独特的数据集:数十年的水下视频和音频,精确配对了单只海豚的身份、生活史和观察到的行为。 一群大西洋斑点海豚,Stenella frontalis 海豚在水中游泳 WDP 的主要关注点是观察和分析海豚的自然通讯和社会互动。在水下工作使研究人员能够以水面观察无法做到的方式直接将声音与具体行为联系起来。几十年来,他们已经将声音类型与行为背景相关联。以下是一些例子: - 签名哨音(独特的名字),母亲和幼崽可以用来重新聚集 - 突发脉冲"尖叫声",常见于打斗中 - 咔哒声"嗡鸣声",常用于求偶或追逐鲨鱼 了解所涉及的单只海豚对准确解释至关重要。这项观察工作的最终目标是理解这些自然声音序列中的结构和潜在含义——寻求可能指示语言的模式和规则。这种对自然通讯的长期分析是 WDP 研究的基础,并为任何人工智能分析提供了必要的背景。 左:一只斑点海豚母亲在觅食时观察她的幼崽。她会用她独特的签名哨音在幼崽觅食完后叫它回来。右:声谱图用来可视化哨音。 一张分割图片:左边,一只海豚接触水下沙质海床;右边,一张声谱图,亮色竖条纹表示高频声音。 ## 介绍 DolphinGemma 分析海豚的自然复杂通讯是一项艰巨任务,而 WDP 庞大的标记数据集为最先进的人工智能提供了独特的机会。 DolphinGemma 应运而生。由谷歌开发,该人工智能模型利用特定的谷歌音频技术:SoundStream 分词器有效表示海豚声音,然后由适合复杂序列的模型架构处理。这个约 4 亿参数的模型优化后可以直接在 WDP 在实地使用的 Pixel 手机上运行。 左:DolphinGemma 早期测试中生成的哨音(左)和突发脉冲(右)。 两张声谱图:左图显示三个拱形声音图案;右图显示更均匀的声音图案。 该模型以 Gemma (https://ai.google.dev/gemma) 的见解为基础,Gemma 是谷歌轻量级最先进的开源模型集合,采用与驱动我们 Gemini 模型相同的研究和技术。DolphinGemma 经过了对 WDP 野生大西洋斑点海豚声学数据库的广泛训练,作为一个音频输入、音频输出模型工作,处理自然海豚声音的序列以识别模式、结构,并最终预测序列中可能出现的下一个声音,就像人类语言的大型语言模型预测句子中的下一个词或标记的方式一样。 WDP 开始在本季度的实地研究中部署 DolphinGemma,具有直接的潜在好处。通过识别重复出现的声音模式、集群和可靠的序列,该模型可以帮助研究人员发现海豚自然通讯中隐藏的结构和潜在含义——这是一项以前需要大量人力的任务。最终,这些模式可能会通过合成声音进行增强,研究人员使用这些声音来指代海豚喜欢玩耍的物体,从而与海豚建立一个共享词汇表用于交互通讯。 ## 使用 Pixel 手机倾听和分析海豚声音 除了分析自然通讯外,WDP 还在追求一条不同的平行路径:探索使用海洋技术的潜在双向互动。这项工作导致了与佐治亚理工学院合作开发 CHAT (https://www.wilddolphinproject.org/our-research/chat-research/)(鲸类听觉增强遥测)系统。CHAT 是一台水下计算机,其设计目的不是直接破译海豚复杂的自然语言,而是建立一个更简单的共享词汇表。 这个概念首先依赖于将新颖的合成哨音(由 CHAT 创建,不同于自然海豚声音)与特定的海豚喜欢的物体相关联,比如马尾藻、海草或研究人员使用的围巾。通过在人类之间展示该系统,研究人员希望天生好奇的海豚会学会模仿哨音来请求这些物体。最终,随着更多海豚自然声音的理解,它们也可以被添加到系统中。 为了实现双向互动,CHAT 系统首先需要: 1. 在海洋噪声中准确听到模仿声。 2. 实时识别模仿了哪个哨音。 3. 通过骨传导耳机(在水下工作)通知研究人员海豚"请求了"哪个物体。 4. 使研究人员能够迅速做出反应,提供正确的物体,强化联系。 谷歌 Pixel 6 处理了海豚声音的高保真实时分析。下一代,以谷歌 Pixel 9 为中心(研究预计在 2025 年夏季进行),通过集成扬声器/麦克风功能并利用手机的高级处理能力同时运行深度学习模型和模板匹配算法,在此基础上进行改进。 左:Denise Herzing 博士穿着"聊天高级版,2012",右:佐治亚理工学院博士生 Charles Ramey 穿着"聊天初级版,2025" 两张肖像:左边,一位女性在船上拿着一个设备;右边,一位男性在室内戴着耳机拿着类似设备。 使用 Pixel 智能手机大大减少了对定制硬件的需求,改进了系统可维护性,降低了功耗,并缩小了设备的成本和尺寸——这些都是开放海洋实地研究的关键优势。同时,DolphinGemma 的预测能力可以帮助 CHAT 在发音序列的早期阶段预测和识别潜在的模仿者,增加研究人员对海豚做出反应的速度,使互动更加流畅和强化。 Google Pixel 9 在最新的 CHAT 系统硬件内。 Pixel 手机在一个装有电缆的外壳内 ## 与研究社区分享 DolphinGemma 认识到协作在科学发现中的价值,我们计划在今年夏天以开源模型的形式分享 DolphinGemma。虽然在大西洋斑点海豚声音上进行了训练,我们预期它对研究其他鲸类物种(如瓶鼻海豚或旋转海豚)的研究人员具有潜在的实用价值。可能需要针对不同物种的发音进行微调,开源模型的特性有利于这种适应。 通过提供像 DolphinGemma 这样的工具,我们希望给世界各地的研究人员提供工具来挖掘他们自己的声学数据集,加速模式搜索,并集体加深我们对这些聪慧海洋哺乳动物的理解。 理解海豚通讯的旅程是漫长的,但 WDP 的专注实地研究、佐治亚理工学院的工程专业知识和谷歌技术的力量相结合,正在开启令人兴奋的新可能性。我们不仅仅在倾听。我们开始理解声音中的模式,为人类和海豚通讯之间的差距可能缩小的未来铺路。 您可以在 Wild Dolphin Project (https://www.wilddolphinproject.org/) 的网站上了解更多信息。

相似文章

google/gemma-4-E4B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4 E4B 指令微调助手模型,该模型具备多模态能力、推理改进以及针对低延迟端侧应用优化的投机解码功能。

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。