vision-model

标签

Cards List
#vision-model

@DailyDoseOfDS_:在您自己的语言上微调DeepSeek-OCR!(100%本地)大多数视觉模型将文档视为巨大的序列…

X AI KOLs Timeline · 昨天 缓存

DeepSeek-OCR是一个3B参数的视觉模型,使用上下文光学压缩进行高效的文档处理。使用Unsloth在波斯语文本上进行微调,字符错误率降低了88.26%,全部开源且可在单GPU上运行。

0 人收藏 0 人点赞
#vision-model

模型:Granite4 Vision,作者 gabe-l-hart · 拉取请求 #23545 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 4天前 缓存

此拉取请求为 llama.cpp(一个开源 LLM 推理引擎)增加了对 Granite4 Vision 模型的支持。

0 人收藏 0 人点赞
#vision-model

我们如何为RAG索引图像

Hacker News Top · 2026-06-02 缓存

Kapa.ai 描述了他们为RAG索引图像的方法:在索引时使用廉价的视觉模型生成文本描述,避免查询时的视觉成本,从而以最小的每次查询开销获得更优的答案。

0 人收藏 0 人点赞
#vision-model

Stepfun 3.7 Flash 表现非常出色

Reddit r/LocalLLaMA · 2026-05-31

Stepfun 3.7 Flash 是一款紧凑型视觉模型,在美学方面接近 GLM 5.1,在 3D 世界理解方面达到其 80% 的水平,同时仅使用 25% 的参数,因此内存效率极高。

0 人收藏 0 人点赞
#vision-model

OlmoEarth v1.1:更高效的模型系列

Hugging Face Blog · 2026-05-19 缓存

OlmoEarth v1.1 是 Allen AI 推出的一系列新型卫星图像分析模型,通过减少基于 Transformer 的模型中的令牌序列长度,在保持性能的同时将计算成本降低高达 3 倍。

0 人收藏 0 人点赞
#vision-model

@alexocheema:在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B(视觉版)。模型能描述图片并正确识别 Apple Park,但把 John Ternus 错认成 Jeff Williams。借助前缀缓存,响应几乎瞬间完成。

X AI KOLs Timeline · 2026-04-21 缓存

在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B(视觉版)。模型能描述图片并正确识别 Apple Park,但把 John Ternus 错认成 Jeff Williams。借助前缀缓存,响应几乎瞬间完成。

0 人收藏 0 人点赞
#vision-model

Anthropic Labs 推出 Claude Design

Anthropic News · 2026-05-08 缓存

Anthropic Labs 发布了 Claude Design,这是一款由 Claude Opus 4.7 视觉模型驱动的新产品,允许用户与 AI 协作创建视觉设计、原型和演示文稿。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈