为 AI 时代重塑鼠标指针
摘要
DeepMind 推出了一款实验性的 AI 驱动鼠标指针,它能够理解视觉上下文和用户意图,旨在简化用户在不同应用程序中与 AI 的交互体验。
暂无内容
查看缓存全文
缓存时间: 2026/05/13 00:24
# 为 AI 时代重新构想鼠标指针
来源:https://deepmind.google/blog/ai-pointer/
我们正在开发更无缝、更直观的与 AI 协作方式
鼠标指针一直是电脑屏幕上的常客,遍布每一个网站、文档和工作流。尽管技术在不断变迁,但在半个多世纪里,指针几乎未曾有过进化。
我们一直在探索新的 AI 驱动功能,帮助指针不仅能理解它所指向的内容,还能理解该内容对用户为何重要。
我们的目标是解决一个常见的痛点:由于典型的 AI 工具往往运行在独立的窗口中,用户不得不将自己所处的环境“拖拽”到 AI 窗口中。我们追求的是相反的效果:直观的 AI 能够无缝融入用户所使用的各种工具,而不打断用户的工作流。例如,想象一下,只需指向一张建筑物的图片并说“给我指路”,当 AI 系统已经理解了上下文时,这就足够了,无需更多操作。
今天,我们概述了指导我们思考未来用户界面的核心原则,并分享了由 Gemini 驱动的 AI 指针的实验性演示。例如,您可以访问 Google AI Studio,仅通过指向和语音指令即可编辑图片 (https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true) 或在地图上查找地点 (https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true)。
这段视频展示了我们 AI 指针的实验环境。视频中的序列均经过压缩以缩短时长。
## 我们的交互原则
我们制定了四项原则,共同将传达上下文和意图的重任从用户转移到计算机,用更简单、更直观的交互取代繁琐的文字提示。以下是我们方法与原则的图示说明。
### 保持工作流连贯
AI 功能应跨所有应用程序工作,而不是迫使用户在应用之间进行“AI 迂回”。我们的原型 AI 指针在用户工作的任何地方均可用。例如,用户可以指向一份 PDF 文件并要求生成要点摘要,以便直接粘贴到电子邮件中;或将鼠标悬停在统计表格上并要求生成饼图版本;或者高亮显示一份食谱并要求将所有食材用量加倍。
### 指哪打哪
当前的 AI 模型要求精确的指令。为了获得良好的回应,用户必须编写详细的提示词。AI 指针将通过平滑捕捉指针周围的视觉和语义上下文来简化这一过程,让计算机能够“看到”并理解什么对用户最重要。在我们的实验系统中,只需指向目标,AI 就能确切知道用户需要帮助的是哪个单词、段落、图片部分还是代码块。
### 善用“这个”和“那个”的力量
在日常人际交流中,人们很少使用长篇大论的详细段落说话。我们可能会说“修复这个”、“把那个移到这儿”或“这是什么意思?”——依靠肢体动作和共同的上下文来填补理解的空白。一个能够理解上下文、指向和语音组合的 AI 系统,将允许用户使用自然的简略表达提出复杂请求,无需费劲调整提示词。
### 将像素转化为可操作的实体
几十年来,计算机只能追踪我们指向的*位置*。现在,AI 还能理解用户指向的*对象*。这将像素转化为结构化的实体,如地点、日期和物体,用户可以立即与之交互。一张潦草笔记的照片变成可交互的待办事项清单;旅行视频中暂停的一帧变成那个看起来很棒的餐厅的预订链接。
构建适应人类行为的技术——而不是迫使用户去适应技术——能够开启一个与 AI 协作真正直观、流畅且无缝的未来。
我们很高兴看到这些以人为本的概念正被融入我们每天使用的产品中。
## 在我们的产品中应用这些成果
我们正将这些原则整合,以重新构想 Chrome 和我们全新的 Googlebook (https://blog.google/products-and-platforms/platforms/android/meet-googlebook) 笔记本电脑体验中的交互方式。从今天起,您无需编写复杂的提示词,只需使用指针即可在 Chrome 中向 Gemini (https://gemini.google/overview/gemini-in-chrome/) 询问您关心的网页部分。例如,您可以选中页面上的几个产品并要求进行比较,或指向您希望在客厅中可视化新沙发摆放的位置。同样,我们很快将在 Googlebook 中推出 Magic Pointer 功能,让用户指尖即可调用 Gemini,获得更直观的交互体验。由于还有众多其他潜在的优秀应用场景,我们将继续在包括 Google Labs 的 Disco (https://labs.google/disco) 在内的各个平台上测试未来的概念。
**在 Google AI Studio 中试用 AI 指针**
相似文章
Reimagining the mouse pointer with AI
Google DeepMind 正在实验一种由 Gemini 驱动的 AI 指针,它能理解用户的指向意图、上下文和语音,并跨应用执行操作,从而重塑人机交互方式。
@GoogleDeepMind: 我们正在利用 AI 重新构想一个拥有 50 年历史的人机交互界面——鼠标指针。这些实验性演示展示了人们如…
Google DeepMind 正在尝试利用 Gemini AI 重新构想鼠标指针界面,让用户能够通过手势动作、语音输入以及自然简写来控制屏幕。
别劫持我的鼠标指针
作者批评了用自定义动画效果替换标准网页光标的趋势,认为这些装饰严重损害了可用性。作者呼吁开发者优先考虑实用的用户体验(UX),而不是现代 AI 辅助编码工具所催生的炫目视觉效果。
我给 AI 代理在我的电脑上装上了“眼睛”
作者介绍了 Pupil,这是一款开源工具,使 AI 代理能够视觉检查 PC 用户界面并识别点击目标,而无需依赖截图。
Meta采集员工鼠标与键盘动作,用于AI训练数据
Meta正在美国员工的PC上部署内部追踪软件,记录鼠标/键盘操作并偶尔截取屏幕快照,以改进可自动化办公任务的AI代理。