vision

标签

Cards List
#vision

Qwen 3.7 Preview

Hacker News Top · 2026-05-18 缓存

阿里巴巴在 Arena 上发布了 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview,在文本和视觉类别中均取得顶级排名。

0 人收藏 0 人点赞
#vision

CohereLabs/command-a-plus-05-2026-w4a4

Hugging Face Models Trending · 2026-05-18 缓存

CohereLabs 发布了 Command A+,一个开源的 25B 活跃参数模型,针对智能体、多语言和推理任务进行了优化,支持视觉功能,采用 Apache 2.0 许可证。

0 人收藏 0 人点赞
#vision

@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai

X AI KOLs Following · 2026-05-12

来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型(sonnet 4.6、gemini 3 flash、gpt 5.4 mini)。

0 人收藏 0 人点赞
#vision

@1weiho: AI 代理现在可以直接“查看”你的幻灯片,无需使用浏览器。open-slide v1.2.0 今日发布。

X AI KOLs Timeline · 2026-05-10 缓存

open-slide v1.2.0 已发布,允许 AI 代理在不借助浏览器的情况下直接解析幻灯片内容。

0 人收藏 0 人点赞
#vision

Gemma 4 视觉

Reddit r/LocalLLaMA · 2026-04-21

Gemma 4 的视觉表现受默认 token 预算过低拖累;在 llama.cpp 中将 --image-max-tokens 提到 2240,可解锁顶尖 OCR 与细节识别,代价是额外占用约 14 GB 显存。

0 人收藏 0 人点赞
#vision

Kimi K2.6 是真正的 Opus 4.7 替代品

Reddit r/LocalLLaMA · 2026-04-21

经过实测并结合部分客户反馈,这是目前首款让我有底气向客户推荐用于替代 Opus 4.7 的模型。虽然它在单项能力上并未明显超越 Opus 4.7,但能以可接受的质量完成 Opus 约 85% 的任务,同时还配备了视觉理解和强大的浏览器操作能力。我最近一直在逐步将部分个人工作流迁移至 Kimi K2.6,表现令人惊喜,尤其在长周期任务中尤为出色。尽管该模型体积庞大,

0 人收藏 0 人点赞
#vision

@GoogleDeepMind: 我们推出了一个升级版本,旨在帮助机器人理解物理世界。Gemini Robotics-ER 1.6 具有显著的…

X AI KOLs · 2026-04-14 缓存

Google DeepMind 发布了 Gemini Robotics-ER 1.6,这是一个升级的模型,具有增强的视觉和空间理解能力,使机器人能够更好地推理和与物理世界互动。

0 人收藏 0 人点赞
#vision

GPT-4V(ision) 系统卡

OpenAI Blog · 2023-09-25 缓存

OpenAI 发布了 GPT-4V(ision) 的系统卡,详细说明其安全属性和评估结果。GPT-4V(ision) 在 GPT-4 的基础上增加了图像输入功能,支持多模态指令跟随和视觉分析。

0 人收藏 0 人点赞
#vision

改进视觉无障碍体验

OpenAI Blog · 2023-03-14 缓存

OpenAI 与 Be My Eyes 合作使用 GPT-4 实现视觉无障碍,使盲人和低视力用户能够通过智能摘要和实时指导来浏览网站、电商平台和物理空间。该系统利用 GPT-4 的视觉能力来识别重要内容,并提供模拟视力正常用户自然浏览信息方式的上下文协助。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈