标签
一位创客制作了一架利用激光追踪目标的无人机,并借助 Claude AI 辅助开发与处理工作。
字节跳动发布了 Agent TARS,这是一个免费开源的多模态 AI 智能体框架,以 31,400 颗星的佳绩荣登 GitHub 热门榜首。该工具支持跨终端和桌面环境的 GUI 控制、计算机视觉和浏览器自动化。
本文提出了一种基于Transformer的模型,仅利用每日GPS运动轨迹对野生动物物种进行分类。在不同研究和区域的基准测试中,该模型在准确率方面优于LSTM和CNN。
字节跳动开源的桌面 AI 自动化工具 UI-TARS Desktop 支持本地运行与屏幕视觉理解,可通过自然语言指令自主操控电脑完成日常任务。
Pixal3D提出了一种像素对齐的3D生成方法,通过反向投影条件化建立直接的像素到3D对应关系,从而提高保真度,解决了规范空间生成中的问题。
本文提出了 Alpha 混合假说,认为深度伪造检测器主要识别的是图像合成伪影,而非语义异常。文章提出了一种名为 BlenD 的方法,通过仅使用真实图像并与自混合图像进行数据增强,实现了卓越的跨数据集泛化能力。
Cull 是一款用于 AI 图像数据集的开源机器策展引擎,它自动化了爬取、分类和描述生成流程,为训练 LoRA 或微调模型准备数据。
Paul Buchheit指出了现代序列到序列模型令人惊讶的零样本能力,即无需针对特定任务进行训练,也能生成命令行指令和Python程序,利用计算机视觉库直接通过像素画面来玩Doom。
作者介绍了 Pupil,这是一款开源工具,使 AI 代理能够视觉检查 PC 用户界面并识别点击目标,而无需依赖截图。
The developer announces the open-sourcing of an Image-to-3D model tool that currently integrates with the Tripo3D API, encouraging users to adapt it for other services or local models.
本文重点介绍了使用3D高斯泼溅(3D Gaussian Splatting)技术创建逼真的基于浏览器的房屋漫游体验,从而消除了对房地产经纪人和VR硬件的需求。文章强调了基于PlayCanvas构建的解决方案的低成本和开源特性。
RecGen 1 和 2 是全新发布的AI模型,声称在将图像转换为3D模型方面达到了业界领先的性能,并且有可能开源。
DeltaRubric 是一篇研究论文,介绍了一种使用单一多模态大语言模型(MLLM)的两步多模态偏好评估方法,通过联合规划与验证来提高奖励建模的可靠性。
Elon Musk 解释说,Tesla FSD 利用 AI 光子计数重建技术而非标准 RGB,从而在低光照和强眩光条件下实现更卓越的性能。
Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any,这是一个用于 GUI 定位的 40 亿参数视觉模型,取得了最先进的结果,使 AI 智能体能够与屏幕元素进行精确交互。
这条社交媒体帖子表达了对 YOLOv3 目标检测模型回归或重新受到关注的兴奋之情。
特斯拉宣布其Vision视觉系统可检测到不可避免的碰撞,并提前最多70毫秒触发安全气囊,这一时间差可能意味着重伤与安然脱险的区别。
MTSlive 已在 Hugging Face 发布 UFO 相关数据集,号召社区训练首个用于不明异常现象(UAP)检测的计算机视觉模型。
Andrej Karpathy 在 YouTube 免费发布了一堂计算机视觉讲座,涵盖图像描述、定位、分割和迁移学习,内容源于他在 Tesla 和 OpenAI 的生产实践经验。