vision-model

#vision-model

@DailyDoseOfDS_：在您自己的语言上微调DeepSeek-OCR！（100%本地）大多数视觉模型将文档视为巨大的序列…

X AI KOLs Timeline ↗ · 昨天缓存

DeepSeek-OCR是一个3B参数的视觉模型，使用上下文光学压缩进行高效的文档处理。使用Unsloth在波斯语文本上进行微调，字符错误率降低了88.26%，全部开源且可在单GPU上运行。

0 人收藏 0 人点赞

#vision-model

Reddit r/LocalLLaMA ↗ · 4天前缓存

此拉取请求为 llama.cpp（一个开源 LLM 推理引擎）增加了对 Granite4 Vision 模型的支持。

0 人收藏 0 人点赞

#vision-model

Hacker News Top ↗ · 2026-06-02 缓存

Kapa.ai 描述了他们为RAG索引图像的方法：在索引时使用廉价的视觉模型生成文本描述，避免查询时的视觉成本，从而以最小的每次查询开销获得更优的答案。

0 人收藏 0 人点赞

#vision-model

Reddit r/LocalLLaMA ↗ · 2026-05-31

Stepfun 3.7 Flash 是一款紧凑型视觉模型，在美学方面接近 GLM 5.1，在 3D 世界理解方面达到其 80% 的水平，同时仅使用 25% 的参数，因此内存效率极高。

0 人收藏 0 人点赞

#vision-model

Hugging Face Blog ↗ · 2026-05-19 缓存

OlmoEarth v1.1 是 Allen AI 推出的一系列新型卫星图像分析模型，通过减少基于 Transformer 的模型中的令牌序列长度，在保持性能的同时将计算成本降低高达 3 倍。

0 人收藏 0 人点赞

#vision-model

X AI KOLs Timeline ↗ · 2026-04-21 缓存

在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B（视觉版）。模型能描述图片并正确识别 Apple Park，但把 John Ternus 错认成 Jeff Williams。借助前缀缓存，响应几乎瞬间完成。

0 人收藏 0 人点赞

#vision-model

Anthropic News ↗ · 2026-05-08 缓存

Anthropic Labs 发布了 Claude Design，这是一款由 Claude Opus 4.7 视觉模型驱动的新产品，允许用户与 AI 协作创建视觉设计、原型和演示文稿。

0 人收藏 0 人点赞