Reimagining the mouse pointer with AI

YouTube AI Channels 产品

摘要

Google DeepMind 正在实验一种由 Gemini 驱动的 AI 指针,它能理解用户的指向意图、上下文和语音,并跨应用执行操作,从而重塑人机交互方式。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/13 18:39

TL;DR: Google DeepMind 正在实验一种由 Gemini 驱动的 AI 指针,它能理解用户的指向意图、上下文和语音,并跨应用执行操作,从而重塑人机交互方式。 ## 指针的进化:从光标到 AI 伙伴 鼠标指针已经存在了超过半个世纪,它一直是每个网站、数字文档和工作流程中恒定不变的元素。但如果我们能重新想象它呢?当指针背后有一个像 Gemini 这样的 AI 模型时——它真正在倾听我们说话,关注屏幕内容,并尝试像另一个人一样解读我们说的每一句话——会发生什么? ## 研究原点:理解“为什么指向” 我是 Adrienne,Google DeepMind 的研究员。我的工作包含大量原型设计、大量用户实验,并真正尝试理解人们,以及如何构建能够满足他们需求的系统。 这个研究项目的核心是一个**实验性的、支持 AI 的指针**。它不仅理解你指向什么,还理解这件事为何重要,以及如何采取行动。最初的问题是:**我们如何构建一个能够真正理解流动用户意图的系统?** ## 从“这个这里”到深层数据 在早期原型中,我们让系统通过关键词“这个这里”或“那里”来捕捉指向意图。例如: > 你能把这两种原料,还有这个,加入我的购物清单吗? > 完成了。 如果用户悬停在笔记上,AI 支持的指针会知道背后的数据。通过输入“这个”这个词,指针会把实际的文本节点添加到提示中,从而改变颜色或其他属性。我们真正可以让指针**深入挖掘所有数据层**。 ## 多模态融合:语音、文字、图像、头部追踪 我们可以使用语音,也可以使用文字。我们可以进行图像理解。举个例子: > 你能把这个改成晚上 8:00 吗? > 我已经更新了草稿,开始时间改为晚上 8:00。 Gemini 会编写代码来满足用户的意图,无论用户指针在哪个应用之间移动。再看方向查询: > 你能告诉我怎么从这里到那里吗? > 这是两个地点之间的方向。 所有这些窗口都会与指针通信,实时创建提示。我甚至可以使用头部追踪: > 嘿,Gemini。你能根据这整个菜单生成一张图片吗?我希望你使用这张图片的风格。 > 好的,我正在生成图片。 > 太棒了,Gemini 将这里的内容以及鸟的风格都转移到了新图片中。 ## 神奇的时刻:混合语音、指向与视觉理解 当我们同时混合语音、指向和视觉理解时,真的能产生神奇的效果。我想象一种新型的操作系统,它向我展示可能觉得有用的内容。我指向内容,分享注意力,如果我与另一个人协作,还能共享画布。 ## 未来设想 指针不再只是一个光标,而是一个**能理解上下文的交互代理**。它监听你的话语,观察你的指向,解读屏幕上的视觉信息,并主动帮忙完成操作——无论是调整日程、生成图像、规划路线,还是管理清单。 --- **Source**: [Reimagining the mouse pointer with AI - Google DeepMind](https://www.youtube.com/watch?v=pZNzfQLgGsA)

相似文章

为 AI 时代重塑鼠标指针

Hacker News Top

DeepMind 推出了一款实验性的 AI 驱动鼠标指针,它能够理解视觉上下文和用户意图,旨在简化用户在不同应用程序中与 AI 的交互体验。

我们构建通用AI助手的愿景

Google DeepMind Blog

Google DeepMind 宣布计划将 Gemini 2.5 Pro 扩展为通用AI助手,具备世界建模、规划和模拟世界各个方面的能力。该愿景整合了来自 AlphaGo、Genie 2 及其他项目的突破性进展,旨在推进人工通用智能(AGI)的发展。

推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型

Google DeepMind Blog

Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。