vision

#vision

@PrajwalTomar_: 大部分Flash模型止步于更便宜、更快。而这款模型被设计用来真正完成工作。我在一个...上运行了Step 3.7 Flash。

X AI KOLs Timeline ↗ · 15小时前缓存

Step 3.7 Flash 是一款紧凑型模型，能够处理视觉、实时数据检索和代码生成，从一张截图开始，在几分钟内自主构建一个可用的仪表盘，每次会话成本约为50美分。

0 人收藏 0 人点赞

#vision

Claude 视觉 vs Gemini 视觉（Gemini 在视觉和世界知识方面远胜）

Reddit r/singularity ↗ · 2天前

一项对比指出，Google 的 Gemini 在视觉和世界知识任务上优于 Anthropic 的 Claude。

0 人收藏 0 人点赞

#vision

@stevibe: Mistral OCR 4 刚刚发布，带边界框（他们最常要求的功能），所以我把它整合到了我的表单填充测试中……

X AI KOLs Timeline ↗ · 3天前缓存

Mistral OCR 4 已发布，带边界框这一被高度要求的功能。用户将其用于表单填充测试，发现效果不错，但并非完美。

0 人收藏 0 人点赞

#vision

最佳本地视觉模型——第二次基准测试更新——2026年6月21日

Reddit r/LocalLLaMA ↗ · 5天前

本文介绍了本地视觉语言模型基准测试的第二次更新，比较了23个模型在30张图像上的表现（使用修订设置），并为不同VRAM层级提供了性能建议。主要发现包括：推理模式会损害视觉性能，且MoE模型在感知任务上表现不如密集模型。

0 人收藏 0 人点赞

#vision

DeepSeek 推出视觉功能

Hacker News Top ↗ · 2026-06-18

DeepSeek 宣布推出新的视觉功能，很可能是一个视觉语言模型，拓展其人工智能服务。

0 人收藏 0 人点赞

#vision

@AlexiGlad: 人工智能的进步源于采用更弱假设的方法，这使其能够更好地扩展。但表示…

X AI KOLs Following ↗ · 2026-06-16 缓存

引入了视觉时域差分（TDV），这是一种全新的表示学习范式，仅依赖于因果关系，无需数据增强、掩码或裁剪，并在密集空间任务上达到了与DINO和iBOT等最先进方法相当的性能。

0 人收藏 0 人点赞

#vision

@ninaddaithankar: 视觉模型能否在没有数据增强、掩码、裁剪或重建的情况下学会观察？它可以！介绍……

X AI KOLs Timeline ↗ · 2026-06-16 缓存

介绍了时间差视觉表征学习范式（Temporal Difference in Vision, TDV），这是一种新颖的视觉表征学习范式，无需数据增强、掩码、裁剪或重建即可学习有用的表征，并在密集空间任务上达到与最先进方法相当的性能。

0 人收藏 0 人点赞

#vision

Claude Fable 在 ZeroBench（高难度视觉基准测试）上已赶超 GPT

Reddit r/singularity ↗ · 2026-06-10

Claude Fable 在具有挑战性的 ZeroBench 视觉基准测试中与 GPT 性能持平，pass@5 和 pass^5 得分相当。

0 人收藏 0 人点赞

#vision

@heyshrutimishra: 1. Fable 5 在几乎所有重要基准测试中都是最先进的。软件工程。科学。知识工作。视觉……

X AI KOLs Following ↗ · 2026-06-09 缓存

Anthropic 发布了 Fable 5，声称它在软件工程、科学、知识工作和视觉等关键基准测试中达到了最先进水平，超过了所有先前可用的模型。

0 人收藏 0 人点赞

#vision

我正在构建一个平行互联网，它叫做 The Thinnernet

Hacker News Top ↗ · 2026-06-08 缓存

作者宣布了一个个人项目，旨在构建一个名为 The Thinnernet 的平行互联网，灵感来源于 Steve Jobs 以及之前在知识库和低功耗操作系统方面的工作。

0 人收藏 0 人点赞

#vision

旨在惠及所有人：我们的计划

OpenAI Blog ↗ · 2026-06-08 缓存

OpenAI概述了其计划，旨在使人工智能广泛惠及人类，并将其与电力的变革性影响相类比。该公司强调要构建赋能人类、分散权力并与人类意图保持一致的人工智能。

0 人收藏 0 人点赞

#vision

MaskAlign: Token子集表征对齐实现高效扩散训练

Hugging Face Daily Papers ↗ · 2026-06-07 缓存

MaskAlign提出了一种Token子集表征对齐方法，通过减少对完整Token集的依赖，并在扰动下保持稳定对齐，从而改进扩散Transformer训练。

0 人收藏 0 人点赞

#vision

@victormustar: 在本周结束之前，让我们回顾一下开放AI领域最疯狂的一周，发布了超过25个引人注目的开放权重模型…

X AI KOLs Following ↗ · 2026-06-05 缓存

本周开放AI领域异常精彩，发布了超过25个开放权重模型，涵盖大语言模型、图像生成、音频/语音、视觉和视频/3D等领域，NVIDIA、Google等机构贡献突出。

0 人收藏 0 人点赞

#vision

Gemma 4 Unified 即将发布

Reddit r/LocalLLaMA ↗ · 2026-06-03

llama.cpp 中的一个合并的 PR 实现了一种新的 'Gemma 4 Unified' 模型类型，表明 Google 即将发布一个无 Transformer 的视觉塔模型。

0 人收藏 0 人点赞

#vision

@NielsRogge: NEPA 现已添加至此：查看底部的评价以与其他模型进行比较

X AI KOLs Following ↗ · 2026-06-02 缓存

NEPA 是一种新的视觉自监督学习和生成式预训练方法，它通过自回归方式预测下一个嵌入，并已添加至一个基准测试中用于评估。

0 人收藏 0 人点赞

#vision

Llama.cpp B9406 MTP mmproj 修复

Reddit r/LocalLLaMA ↗ · 2026-05-29

Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型（例如 Qwen3.6-35B-A3B）时出现的崩溃问题 (GGML_ASSERT)。

0 人收藏 0 人点赞

#vision

ChainzRule：跨表格、NLP与视觉任务的样本高效、鲁棒的深度学习

arXiv cs.LG ↗ · 2026-05-26 缓存

ChainzRule 提出了一种具有可学习多项式层和微分正则化的神经架构，在表格、NLP和视觉任务上实现了样本高效且鲁棒的性能，在Pima Diabetes、SST-5、Yelp Full和CIFAR-10-C数据集上取得了成果。

0 人收藏 0 人点赞

#vision

@xsser_w: 陆奇还是太强了， 1年前让我做沙盒/容器安全，我没意识到啥意思，现在看看真的。。。我太傻逼了他还有很多远见，其中很多都是现在被验证了。我了个去放到现在来看做harness 的核心就是沙盒和验证你在沙盒里可以看到一切轨迹和边界的…

X AI KOLs Timeline ↗ · 2026-05-23 缓存

作者称赞陆奇一年前提出的沙盒/容器安全观点至今被验证，强调沙盒在观测reward hacking中的核心作用。

0 人收藏 0 人点赞

#vision

@elonmusk：正确

X AI KOLs Timeline ↗ · 2026-05-21 缓存

Elon Musk最初对SpaceX的目标是增加NASA的预算，而不是创办一家发射公司。

0 人收藏 0 人点赞

#vision

@特斯拉：Model S和Model X的传承将在我们的自动驾驶愿景中延续

X AI KOLs Following ↗ · 2026-05-21 缓存

特斯拉表示，Model S和Model X的传承将继续体现在其自动驾驶愿景中。

0 人收藏 0 人点赞

vision

提交意见反馈