computer-vision

#computer-vision

这位小哥用 Claude 打造了一架能用激光追踪目标的无人机

Reddit r/ArtificialInteligence ↗ · 3天前

一位创客制作了一架利用激光追踪目标的无人机，并借助 Claude AI 辅助开发与处理工作。

0 人收藏 0 人点赞

#computer-vision

@neil_xbt: 字节跳动刚刚发布了 GitHub 全站排名第一的热门仓库！31,400 颗星。仍在攀升。Agent TARS。一款免费……

X AI KOLs Timeline ↗ · 4天前

字节跳动发布了 Agent TARS，这是一个免费开源的多模态 AI 智能体框架，以 31,400 颗星的佳绩荣登 GitHub 热门榜首。该工具支持跨终端和桌面环境的 GUI 控制、计算机视觉和浏览器自动化。

0 人收藏 0 人点赞

#computer-vision

基于Transformer的利用每日运动轨迹进行野生动物物种分类

arXiv cs.LG ↗ · 4天前缓存

本文提出了一种基于Transformer的模型，仅利用每日GPS运动轨迹对野生动物物种进行分类。在不同研究和区域的基准测试中，该模型在准确率方面优于LSTM和CNN。

0 人收藏 0 人点赞

#computer-vision

@VincentLogic: 发现个字节开源的桌面 AI 神器！ UI-TARS Desktop，31k stars 不是吹的，这玩意儿真能看懂你的屏幕，然后帮你自动操作电脑。你告诉它"帮我把 VS Code 的自动保存打开，延迟改成 500 毫秒"，它就自己： -…

X AI KOLs Timeline ↗ · 4天前

字节跳动开源的桌面 AI 自动化工具 UI-TARS Desktop 支持本地运行与屏幕视觉理解，可通过自然语言指令自主操控电脑完成日常任务。

0 人收藏 0 人点赞

#computer-vision

Pixal3D：基于图像的像素对齐3D生成

Hugging Face Daily Papers ↗ · 4天前缓存

Pixal3D提出了一种像素对齐的3D生成方法，通过反向投影条件化建立直接的像素到3D对应关系，从而提高保真度，解决了规范空间生成中的问题。

0 人收藏 0 人点赞

#computer-vision

Alpha 混合假说：深度伪造检测中的合成捷径

Hugging Face Daily Papers ↗ · 4天前缓存

本文提出了 Alpha 混合假说，认为深度伪造检测器主要识别的是图像合成伪影，而非语义异常。文章提出了一种名为 BlenD 的方法，通过仅使用真实图像并与自混合图像进行数据增强，实现了卓越的跨数据集泛化能力。

0 人收藏 0 人点赞

#computer-vision

分享 "Cull"：我的用于图像爬取、分类及描述生成流水线的开源数据集工具

Reddit r/LocalLLaMA ↗ · 4天前

Cull 是一款用于 AI 图像数据集的开源机器策展引擎，它自动化了爬取、分类和描述生成流程，为训练 LoRA 或微调模型准备数据。

0 人收藏 0 人点赞

#computer-vision

@paul_cal：我想强调一下这事有多离谱。如果你在2020年告诉别人，一个序列到序列（seq2seq）模型会直接使用命令行指令来编写一个Python程序……

X AI KOLs Following ↗ · 4天前缓存

Paul Buchheit指出了现代序列到序列模型令人惊讶的零样本能力，即无需针对特定任务进行训练，也能生成命令行指令和Python程序，利用计算机视觉库直接通过像素画面来玩Doom。

0 人收藏 0 人点赞

#computer-vision

我给 AI 代理在我的电脑上装上了“眼睛”

Reddit r/AI_Agents ↗ · 4天前

作者介绍了 Pupil，这是一款开源工具，使 AI 代理能够视觉检查 PC 用户界面并识别点击目标，而无需依赖截图。

0 人收藏 0 人点赞

#computer-vision

@servasyy_ai: 兄弟们！答应你们晚上开源，它来了 image to 3D模型目前只对接了线上：http://tripo3d.ai 你们也可以改其他家，或者本地模型记得点赞关注，用的好GitHub也给一颗小星星 https://github.com/hu…

X AI KOLs Timeline ↗ · 4天前缓存

The developer announces the open-sourcing of an Image-to-3D model tool that currently integrates with the Tripo3D API, encouraging users to adapt it for other services or local models.

0 人收藏 0 人点赞

#computer-vision

有人刚刚颠覆了房地产行业：一名男子用手机扫描了一整栋房子并上传。现在地球上的任何人都可以在浏览器标签页中漫游……

X AI KOLs Timeline ↗ · 4天前

本文重点介绍了使用3D高斯泼溅（3D Gaussian Splatting）技术创建逼真的基于浏览器的房屋漫游体验，从而消除了对房地产经纪人和VR硬件的需求。文章强调了基于PlayCanvas构建的解决方案的低成本和开源特性。

0 人收藏 0 人点赞

#computer-vision

RecGen 1 & 2：全新发布的图像转3D模型AI，达到业界领先水平，可能开源。

Reddit r/singularity ↗ · 5天前

RecGen 1 和 2 是全新发布的AI模型，声称在将图像转换为3D模型方面达到了业界领先的性能，并且有可能开源。

0 人收藏 0 人点赞

#computer-vision

DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

Hugging Face Daily Papers ↗ · 5天前缓存

DeltaRubric 是一篇研究论文，介绍了一种使用单一多模态大语言模型（MLLM）的两步多模态偏好评估方法，通过联合规划与验证来提高奖励建模的可靠性。

0 人收藏 0 人点赞

#computer-vision

@elonmusk：人类感知的 RGB 图像为图 1，而特斯拉 AI 光子计数重建图像为图 2。这就是 Tesla FSD 能够……

X AI KOLs Following ↗ · 5天前缓存

Elon Musk 解释说，Tesla FSD 利用 AI 光子计数重建技术而非标准 RGB，从而在低光照和强眩光条件下实现更卓越的性能。

0 人收藏 0 人点赞

#computer-vision

@elonmusk：Tesla AI Vision

X AI KOLs Following ↗ · 5天前

简要提及 Tesla AI Vision，指的是特斯拉基于计算机视觉的自动驾驶方案。

0 人收藏 0 人点赞

#computer-vision

@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any，这是一个拥有 40 亿参数的视觉模型，用于 GUI 定位，并取得了 SOTA……

X AI KOLs Following ↗ · 6天前缓存

Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any，这是一个用于 GUI 定位的 40 亿参数视觉模型，取得了最先进的结果，使 AI 智能体能够与屏幕元素进行精确交互。

0 人收藏 0 人点赞

#computer-vision

@tenderizzation：这简直超出了预期！YOLOv3 回归

X AI KOLs Following ↗ · 6天前缓存

这条社交媒体帖子表达了对 YOLOv3 目标检测模型回归或重新受到关注的兴奋之情。

0 人收藏 0 人点赞

#computer-vision

@Tesla：Tesla Vision可让您的特斯拉在检测到不可避免的碰撞时提前最多70毫秒触发安全气囊

X AI KOLs Following ↗ · 6天前缓存

特斯拉宣布其Vision视觉系统可检测到不可避免的碰撞，并提前最多70毫秒触发安全气囊，这一时间差可能意味着重伤与安然脱险的区别。

0 人收藏 0 人点赞

#computer-vision

@ClementDelangue: 多亏有 @MTSlive，UFO 数据集现已上线 Hugging Face！谁将训练第一个计算机视觉模型？https://huggingface.co/MTS…

X AI KOLs Following ↗ · 6天前缓存

MTSlive 已在 Hugging Face 发布 UFO 相关数据集，号召社区训练首个用于不明异常现象（UAP）检测的计算机视觉模型。

0 人收藏 0 人点赞

#computer-vision

@neil_xbt: Andrej Karpathy 本可以收 1000 美元讲授这堂计算机视觉课！他却免费放在了 YouTube 上。这位从零打造 Tesla Autopilot、联合创立 OpenAI 的人，花了多年时间将他在讲解的架构应用于实际，规模之大多数工程师只能从文章里读到。

X AI KOLs Timeline ↗ · 2026-05-08

Andrej Karpathy 在 YouTube 免费发布了一堂计算机视觉讲座，涵盖图像描述、定位、分割和迁移学习，内容源于他在 Tesla 和 OpenAI 的生产实践经验。

0 人收藏 1 人点赞

computer-vision

提交意见反馈