vision

#vision

Qwen 3.7 Preview

Hacker News Top ↗ · 2026-05-18 缓存

阿里巴巴在 Arena 上发布了 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview，在文本和视觉类别中均取得顶级排名。

0 人收藏 0 人点赞

#vision

CohereLabs/command-a-plus-05-2026-w4a4

Hugging Face Models Trending ↗ · 2026-05-18 缓存

CohereLabs 发布了 Command A+，一个开源的 25B 活跃参数模型，针对智能体、多语言和推理任务进行了优化，支持视觉功能，采用 Apache 2.0 许可证。

0 人收藏 0 人点赞

#vision

@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai

X AI KOLs Following ↗ · 2026-05-12

来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型（sonnet 4.6、gemini 3 flash、gpt 5.4 mini）。

0 人收藏 0 人点赞

#vision

@1weiho: AI 代理现在可以直接“查看”你的幻灯片，无需使用浏览器。open-slide v1.2.0 今日发布。

X AI KOLs Timeline ↗ · 2026-05-10 缓存

open-slide v1.2.0 已发布，允许 AI 代理在不借助浏览器的情况下直接解析幻灯片内容。

0 人收藏 0 人点赞

#vision

Gemma 4 视觉

Reddit r/LocalLLaMA ↗ · 2026-04-21

Gemma 4 的视觉表现受默认 token 预算过低拖累；在 llama.cpp 中将 --image-max-tokens 提到 2240，可解锁顶尖 OCR 与细节识别，代价是额外占用约 14 GB 显存。

0 人收藏 0 人点赞

#vision

Kimi K2.6 是真正的 Opus 4.7 替代品

Reddit r/LocalLLaMA ↗ · 2026-04-21

经过实测并结合部分客户反馈，这是目前首款让我有底气向客户推荐用于替代 Opus 4.7 的模型。虽然它在单项能力上并未明显超越 Opus 4.7，但能以可接受的质量完成 Opus 约 85% 的任务，同时还配备了视觉理解和强大的浏览器操作能力。我最近一直在逐步将部分个人工作流迁移至 Kimi K2.6，表现令人惊喜，尤其在长周期任务中尤为出色。尽管该模型体积庞大，

0 人收藏 0 人点赞

#vision