标签
DeepSeek-OCR是一个3B参数的视觉模型,使用上下文光学压缩进行高效的文档处理。使用Unsloth在波斯语文本上进行微调,字符错误率降低了88.26%,全部开源且可在单GPU上运行。
此拉取请求为 llama.cpp(一个开源 LLM 推理引擎)增加了对 Granite4 Vision 模型的支持。
Kapa.ai 描述了他们为RAG索引图像的方法:在索引时使用廉价的视觉模型生成文本描述,避免查询时的视觉成本,从而以最小的每次查询开销获得更优的答案。
Stepfun 3.7 Flash 是一款紧凑型视觉模型,在美学方面接近 GLM 5.1,在 3D 世界理解方面达到其 80% 的水平,同时仅使用 25% 的参数,因此内存效率极高。
OlmoEarth v1.1 是 Allen AI 推出的一系列新型卫星图像分析模型,通过减少基于 Transformer 的模型中的令牌序列长度,在保持性能的同时将计算成本降低高达 3 倍。
在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B(视觉版)。模型能描述图片并正确识别 Apple Park,但把 John Ternus 错认成 Jeff Williams。借助前缀缓存,响应几乎瞬间完成。
Anthropic Labs 发布了 Claude Design,这是一款由 Claude Opus 4.7 视觉模型驱动的新产品,允许用户与 AI 协作创建视觉设计、原型和演示文稿。