@VincentLogic: 发现个字节开源的桌面 AI 神器! UI-TARS Desktop,31k stars 不是吹的,这玩意儿真能看懂你的屏幕,然后帮你自动操作电脑。 你告诉它"帮我把 VS Code 的自动保存打开,延迟改成 500 毫秒",它就自己: -…

X AI KOLs Timeline 工具

摘要

字节跳动开源的桌面 AI 自动化工具 UI-TARS Desktop 支持本地运行与屏幕视觉理解,可通过自然语言指令自主操控电脑完成日常任务。

发现个字节开源的桌面 AI 神器! UI-TARS Desktop,31k stars 不是吹的,这玩意儿真能看懂你的屏幕,然后帮你自动操作电脑。 你告诉它"帮我把 VS Code 的自动保存打开,延迟改成 500 毫秒",它就自己: - 打开 VS Code - 进设置界面 - 找到自动保存选项 - 改成 afterDelay - 把延迟时间改成 500ms 全程不用你动手,鼠标键盘它自己控制,界面它自己看。基于 UI-TARS + Seed-1.5-VL 视觉模型,理解能力挺强的。 最爽的是 100% 本地运行,数据不用上传云端,隐私安全。完全开源,Apache 2.0 协议,不用花钱买 API。搞办公自动化、批量处理任务的,这个比写脚本省事多了。 Windows、Mac 都能用,部署也简单。 项目地址放评论区了
查看原文

相似文章

@billtheinvestor: 字节跳动开源 UI-TARS Desktop (3.6k)。核心逻辑:100%本地运行、仅看像素、不调API。对比OpenAI/Anthropic云端模式,解决两大痛点:1. 数据隐私(不出机器);2. 零成本延迟(免API费)。构建私密…

X AI KOLs Following

字节跳动开源 UI-TARS Desktop,一款100%本地运行、仅基于像素操作且不调用API的桌面自动化工具,解决数据隐私和API费用两大痛点,为构建私密自动化工作流提供了高效开源方案。

@axiaisacat: 字节跳动开源了一个能直接操控你电脑的 AI 叫 UI-TARS,开源免费,本地运行 你用说话的方式告诉它: 「帮我在 Priceline 订9月1日最早的旧金山到纽约的机票」 「帮我把 VS Code 的自动保存延迟设置成500毫秒」 「…

X AI KOLs Timeline

ByteDance has open-sourced UI-TARS, an AI model capable of directly controlling computer interfaces via mouse and keyboard for tasks like booking flights or configuring software. Available in 2B, 7B, and 72B parameter sizes, it runs locally and offers a free alternative to paid services like Anthropic's Computer Use.

@berryxia: 兄弟们! 不要重复造轮子,直接拿这个31.4K Star的开源来干吧! 字节跳动把 UI-TARS-desktop 开源了,看了一眼,这个项目已经上线快一年了! 目前 Star 数已经来到 31.4k,而且增长速度还挺稳。 24 小时增长…

X AI KOLs Timeline

ByteDance open-sourced UI-TARS-desktop, a native desktop GUI agent with 31.4k GitHub stars that uses vision models to control local or remote applications via natural language. The tool runs locally for privacy, supports Windows and macOS, and includes a CLI with streaming output for developers.

@GoSailGlobal: 字节悄悄把 GUI Agent 这条路线开源了,而且做得比想象中扎实 UI-TARS-desktop(GitHub 29.4k )一个仓库里塞了两个东西: · Agent TARS:通用多模态 Agent 框架,CLI 一键启动,能在终端…

X AI KOLs Timeline

字节跳动开源了 UI-TARS-desktop 项目,包含通用多模态 Agent 框架 Agent TARS 和本地 GUI Agent UI-TARS Desktop,支持在终端/浏览器执行真实任务,基于 UI-TARS 视觉模型和 Seed-1.5-VL,采用 Apache 2.0 许可。