Reimagining the mouse pointer with AI
摘要
Google DeepMind 正在实验一种由 Gemini 驱动的 AI 指针,它能理解用户的指向意图、上下文和语音,并跨应用执行操作,从而重塑人机交互方式。
暂无内容
查看缓存全文
缓存时间: 2026/05/13 18:39
TL;DR: Google DeepMind 正在实验一种由 Gemini 驱动的 AI 指针,它能理解用户的指向意图、上下文和语音,并跨应用执行操作,从而重塑人机交互方式。
## 指针的进化:从光标到 AI 伙伴
鼠标指针已经存在了超过半个世纪,它一直是每个网站、数字文档和工作流程中恒定不变的元素。但如果我们能重新想象它呢?当指针背后有一个像 Gemini 这样的 AI 模型时——它真正在倾听我们说话,关注屏幕内容,并尝试像另一个人一样解读我们说的每一句话——会发生什么?
## 研究原点:理解“为什么指向”
我是 Adrienne,Google DeepMind 的研究员。我的工作包含大量原型设计、大量用户实验,并真正尝试理解人们,以及如何构建能够满足他们需求的系统。
这个研究项目的核心是一个**实验性的、支持 AI 的指针**。它不仅理解你指向什么,还理解这件事为何重要,以及如何采取行动。最初的问题是:**我们如何构建一个能够真正理解流动用户意图的系统?**
## 从“这个这里”到深层数据
在早期原型中,我们让系统通过关键词“这个这里”或“那里”来捕捉指向意图。例如:
> 你能把这两种原料,还有这个,加入我的购物清单吗?
> 完成了。
如果用户悬停在笔记上,AI 支持的指针会知道背后的数据。通过输入“这个”这个词,指针会把实际的文本节点添加到提示中,从而改变颜色或其他属性。我们真正可以让指针**深入挖掘所有数据层**。
## 多模态融合:语音、文字、图像、头部追踪
我们可以使用语音,也可以使用文字。我们可以进行图像理解。举个例子:
> 你能把这个改成晚上 8:00 吗?
> 我已经更新了草稿,开始时间改为晚上 8:00。
Gemini 会编写代码来满足用户的意图,无论用户指针在哪个应用之间移动。再看方向查询:
> 你能告诉我怎么从这里到那里吗?
> 这是两个地点之间的方向。
所有这些窗口都会与指针通信,实时创建提示。我甚至可以使用头部追踪:
> 嘿,Gemini。你能根据这整个菜单生成一张图片吗?我希望你使用这张图片的风格。
> 好的,我正在生成图片。
> 太棒了,Gemini 将这里的内容以及鸟的风格都转移到了新图片中。
## 神奇的时刻:混合语音、指向与视觉理解
当我们同时混合语音、指向和视觉理解时,真的能产生神奇的效果。我想象一种新型的操作系统,它向我展示可能觉得有用的内容。我指向内容,分享注意力,如果我与另一个人协作,还能共享画布。
## 未来设想
指针不再只是一个光标,而是一个**能理解上下文的交互代理**。它监听你的话语,观察你的指向,解读屏幕上的视觉信息,并主动帮忙完成操作——无论是调整日程、生成图像、规划路线,还是管理清单。
---
**Source**: [Reimagining the mouse pointer with AI - Google DeepMind](https://www.youtube.com/watch?v=pZNzfQLgGsA)
相似文章
@GoogleDeepMind: 我们正在利用 AI 重新构想一个拥有 50 年历史的人机交互界面——鼠标指针。这些实验性演示展示了人们如…
Google DeepMind 正在尝试利用 Gemini AI 重新构想鼠标指针界面,让用户能够通过手势动作、语音输入以及自然简写来控制屏幕。
为 AI 时代重塑鼠标指针
DeepMind 推出了一款实验性的 AI 驱动鼠标指针,它能够理解视觉上下文和用户意图,旨在简化用户在不同应用程序中与 AI 的交互体验。
我们构建通用AI助手的愿景
Google DeepMind 宣布计划将 Gemini 2.5 Pro 扩展为通用AI助手,具备世界建模、规划和模拟世界各个方面的能力。该愿景整合了来自 AlphaGo、Genie 2 及其他项目的突破性进展,旨在推进人工通用智能(AGI)的发展。
推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型
Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。
@GoogleDeepMind:团队无需编写复杂代码,仅用日常英语即可与Spot交互。我们搭建了Gemini Ro…
Google DeepMind已将Gemini与波士顿动力的Spot机器人整合,实现无需复杂编码的自然语言控制。用户现在可以用日常英语指令Spot执行导航、拍照、物体操控等复杂任务。