vision

标签

Cards List
#vision

@PrajwalTomar_: 大部分Flash模型止步于更便宜、更快。而这款模型被设计用来真正完成工作。我在一个...上运行了Step 3.7 Flash。

X AI KOLs Timeline · 15小时前 缓存

Step 3.7 Flash 是一款紧凑型模型,能够处理视觉、实时数据检索和代码生成,从一张截图开始,在几分钟内自主构建一个可用的仪表盘,每次会话成本约为50美分。

0 人收藏 0 人点赞
#vision

Claude 视觉 vs Gemini 视觉(Gemini 在视觉和世界知识方面远胜)

Reddit r/singularity · 2天前

一项对比指出,Google 的 Gemini 在视觉和世界知识任务上优于 Anthropic 的 Claude。

0 人收藏 0 人点赞
#vision

@stevibe: Mistral OCR 4 刚刚发布,带边界框(他们最常要求的功能),所以我把它整合到了我的表单填充测试中……

X AI KOLs Timeline · 3天前 缓存

Mistral OCR 4 已发布,带边界框这一被高度要求的功能。用户将其用于表单填充测试,发现效果不错,但并非完美。

0 人收藏 0 人点赞
#vision

最佳本地视觉模型——第二次基准测试更新——2026年6月21日

Reddit r/LocalLLaMA · 5天前

本文介绍了本地视觉语言模型基准测试的第二次更新,比较了23个模型在30张图像上的表现(使用修订设置),并为不同VRAM层级提供了性能建议。主要发现包括:推理模式会损害视觉性能,且MoE模型在感知任务上表现不如密集模型。

0 人收藏 0 人点赞
#vision

DeepSeek 推出视觉功能

Hacker News Top · 2026-06-18

DeepSeek 宣布推出新的视觉功能,很可能是一个视觉语言模型,拓展其人工智能服务。

0 人收藏 0 人点赞
#vision

@AlexiGlad: 人工智能的进步源于采用更弱假设的方法,这使其能够更好地扩展。但表示…

X AI KOLs Following · 2026-06-16 缓存

引入了视觉时域差分(TDV),这是一种全新的表示学习范式,仅依赖于因果关系,无需数据增强、掩码或裁剪,并在密集空间任务上达到了与DINO和iBOT等最先进方法相当的性能。

0 人收藏 0 人点赞
#vision

@ninaddaithankar: 视觉模型能否在没有数据增强、掩码、裁剪或重建的情况下学会观察?它可以!介绍……

X AI KOLs Timeline · 2026-06-16 缓存

介绍了时间差视觉表征学习范式(Temporal Difference in Vision, TDV),这是一种新颖的视觉表征学习范式,无需数据增强、掩码、裁剪或重建即可学习有用的表征,并在密集空间任务上达到与最先进方法相当的性能。

0 人收藏 0 人点赞
#vision

Claude Fable 在 ZeroBench(高难度视觉基准测试)上已赶超 GPT

Reddit r/singularity · 2026-06-10

Claude Fable 在具有挑战性的 ZeroBench 视觉基准测试中与 GPT 性能持平,pass@5 和 pass^5 得分相当。

0 人收藏 0 人点赞
#vision

@heyshrutimishra: 1. Fable 5 在几乎所有重要基准测试中都是最先进的。软件工程。科学。知识工作。视觉……

X AI KOLs Following · 2026-06-09 缓存

Anthropic 发布了 Fable 5,声称它在软件工程、科学、知识工作和视觉等关键基准测试中达到了最先进水平,超过了所有先前可用的模型。

0 人收藏 0 人点赞
#vision

我正在构建一个平行互联网,它叫做 The Thinnernet

Hacker News Top · 2026-06-08 缓存

作者宣布了一个个人项目,旨在构建一个名为 The Thinnernet 的平行互联网,灵感来源于 Steve Jobs 以及之前在知识库和低功耗操作系统方面的工作。

0 人收藏 0 人点赞
#vision

旨在惠及所有人:我们的计划

OpenAI Blog · 2026-06-08 缓存

OpenAI概述了其计划,旨在使人工智能广泛惠及人类,并将其与电力的变革性影响相类比。该公司强调要构建赋能人类、分散权力并与人类意图保持一致的人工智能。

0 人收藏 0 人点赞
#vision

MaskAlign: Token子集表征对齐实现高效扩散训练

Hugging Face Daily Papers · 2026-06-07 缓存

MaskAlign提出了一种Token子集表征对齐方法,通过减少对完整Token集的依赖,并在扰动下保持稳定对齐,从而改进扩散Transformer训练。

0 人收藏 0 人点赞
#vision

@victormustar: 在本周结束之前,让我们回顾一下开放AI领域最疯狂的一周,发布了超过25个引人注目的开放权重模型…

X AI KOLs Following · 2026-06-05 缓存

本周开放AI领域异常精彩,发布了超过25个开放权重模型,涵盖大语言模型、图像生成、音频/语音、视觉和视频/3D等领域,NVIDIA、Google等机构贡献突出。

0 人收藏 0 人点赞
#vision

Gemma 4 Unified 即将发布

Reddit r/LocalLLaMA · 2026-06-03

llama.cpp 中的一个合并的 PR 实现了一种新的 'Gemma 4 Unified' 模型类型,表明 Google 即将发布一个无 Transformer 的视觉塔模型。

0 人收藏 0 人点赞
#vision

@NielsRogge: NEPA 现已添加至此:查看底部的评价以与其他模型进行比较

X AI KOLs Following · 2026-06-02 缓存

NEPA 是一种新的视觉自监督学习和生成式预训练方法,它通过自回归方式预测下一个嵌入,并已添加至一个基准测试中用于评估。

0 人收藏 0 人点赞
#vision

Llama.cpp B9406 MTP mmproj 修复

Reddit r/LocalLLaMA · 2026-05-29

Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型(例如 Qwen3.6-35B-A3B)时出现的崩溃问题 (GGML_ASSERT)。

0 人收藏 0 人点赞
#vision

ChainzRule:跨表格、NLP与视觉任务的样本高效、鲁棒的深度学习

arXiv cs.LG · 2026-05-26 缓存

ChainzRule 提出了一种具有可学习多项式层和微分正则化的神经架构,在表格、NLP和视觉任务上实现了样本高效且鲁棒的性能,在Pima Diabetes、SST-5、Yelp Full和CIFAR-10-C数据集上取得了成果。

0 人收藏 0 人点赞
#vision

@xsser_w: 陆奇还是太强了, 1年前让我做沙盒/容器安全,我没意识到啥意思,现在看看 真的。。。我太傻逼了 他还有很多远见, 其中很多都是现在被验证了。我了个去 放到现在来看 做harness 的核心就是沙盒和验证 你在沙盒里可以看到一切轨迹和边界的…

X AI KOLs Timeline · 2026-05-23 缓存

作者称赞陆奇一年前提出的沙盒/容器安全观点至今被验证,强调沙盒在观测reward hacking中的核心作用。

0 人收藏 0 人点赞
#vision

@elonmusk:正确

X AI KOLs Timeline · 2026-05-21 缓存

Elon Musk最初对SpaceX的目标是增加NASA的预算,而不是创办一家发射公司。

0 人收藏 0 人点赞
#vision

@特斯拉:Model S和Model X的传承将在我们的自动驾驶愿景中延续

X AI KOLs Following · 2026-05-21 缓存

特斯拉表示,Model S和Model X的传承将继续体现在其自动驾驶愿景中。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈