@berryxia: Apple 一直其实在赌端侧模型的应用！统一架构内存就是端侧模型的天然温床！统一内存也就是，内存即显存。也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了，我看完…

X AI KOLs Timeline 2026/05/12 00:59 模型

edge-ai multimodal open-source mobile-optimized vision-language efficient-deployment

摘要

OpenBMB 发布了 MiniCPM-V 4.6，一个 1.3B 参数的多模态模型，通过高分辨率视觉处理和高效压缩技术，在消费级硬件和手机上实现快速推理，性能超过同类大模型，且全面开源支持多种推理和量化框架。

Apple 一直其实在赌端侧模型的应用！统一架构内存就是端侧模型的天然温床！统一内存也就是，内存即显存。也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了，我看完觉得现在小模型在边缘设备上真的越来越能打。它重点做了高分辨率视觉处理，专门针对消费级硬件和手机优化。他们用了 LLaVA-UHD v4 的新技术，直接把视觉编码成本砍了 55%，让模型能在普通手机和电脑上原生跑起来，效率高得离谱。实际测下来，它在几个关键多模态基准上超过了 Gemma4-E2B-it 和Qwen3.5-0.8B，而且用的 token 只有后者的 2.5%。速度方面也特别能看：在 RTX 4090 上处理 3136² 高清图片时，首 token 时间只要 75.7ms，比 Qwen3.5-0.8B 快 2.2 倍，token 吞吐量还高出 1.5 倍左右。技术上他们玩了 Intra-ViT 早期压缩和混合 4x/16x 视觉压缩，基本把分辨率和延迟的曲线拉平了，想象一下以后手机上直接跑高分辨率视觉任务都不会卡。对开发者来说也特别友好：iOS、Android、HarmonyOS 部署代码全开源，几步就能跑起来。消费级 GPU 上就能 fine-tuning，还原生支持 SGLang、vLLM、llama.cpp、Ollama，GGUF、BNB、AWQ、GPTQ 各种量化格式都有，直接就能用。 Hugging Face、GitHub、Modelscope、网页 demo 和 App demo 都放出来了，想玩的同学可以直接去试。我改天搞个demo看看

查看原文

相似文章

@berryxia: 我靠，这不直接抢了苹果的活儿啊！ 6.6B的小模型直接把Siri和一堆云端巨头干到闭嘴，还只吃7GB内存就跑在Mac本地。 CJ Zafir他们搞的Mac-1，不光参数小到离谱，还一次性接了487个Mac原生工具，能链式调用、自动推理、连…

X AI KOLs Timeline

CJ Zafir团队推出了Mac-1，一个6.6B参数的小模型，可在Mac本地运行仅需7GB内存，能链式调用487个Mac原生工具，推理速度达65 tok/s，旨在颠覆云端大模型主导的Agent范式。

@FeitengLi: OpenBMB 开源 MiniCPM-V 4.6 了，1.3B 参数（SigLIP2-400M + Qwen3.5-0.8B），262k 上下文，视觉编码 FLOPs 比上一代少 50%+。同任务 token 成本比 Qwen3.5-0…

X AI KOLs Timeline

OpenBMB releases MiniCPM-V 4.6, a 1.3B-parameter multimodal LLM with 262k context and significantly reduced visual encoding FLOPs, achieving strong benchmark performance and broad inference framework support.

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

X AI KOLs Timeline

AirLLM 是一个完全开源的工具，通过分层推理技术（逐层加载并立即释放显存），使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行，无需量化、蒸馏或剪枝，并已支持 Llama3.1 405B 在 8GB 显存上运行。

@cevenif: 用苹果电脑跑本地大模型的朋友，有个工具值得盯上——Rapid-MLX。它在 M 系列芯片上的推理速度比 Ollama 快 2 到 4 倍，因为它是直接基于苹果的 MLX 框架开发的，对芯片架构的压榨更彻底。几个关键点： KV 缓存裁剪加…

X AI KOLs Timeline

Rapid-MLX 是一个针对苹果 M 系列芯片优化的本地大模型推理工具，基于 MLX 框架开发，推理速度比 Ollama 快 2 到 4 倍，支持多种模型、工具调用及 OpenAI API 兼容接口。

@awnihannun: 苹果在设备端部署了200亿参数的模型，这非常酷。你无法以任何合理的精度将200亿参数放入RAM中…

X AI KOLs Following

苹果发布了一款200亿参数的端侧模型，采用MoE变体，每次查询仅选择一次专家以放入NAND，从而在RAM受限的情况下实现推理。

相似文章

@FeitengLi: OpenBMB 开源 MiniCPM-V 4.6 了，1.3B 参数（SigLIP2-400M + Qwen3.5-0.8B），262k 上下文，视觉编码 FLOPs 比上一代少 50%+。 同任务 token 成本比 Qwen3.5-0…

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。 最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

@cevenif: 用苹果电脑跑本地大模型的朋友，有个工具值得盯上——Rapid-MLX。它在 M 系列芯片上的推理速度比 Ollama 快 2 到 4 倍，因为它是直接基于苹果的 MLX 框架开发的，对芯片架构的压榨更彻底。 几个关键点： KV 缓存裁剪加…

@awnihannun: 苹果在设备端部署了200亿参数的模型，这非常酷。你无法以任何合理的精度将200亿参数放入RAM中…

提交意见反馈

@FeitengLi: OpenBMB 开源 MiniCPM-V 4.6 了，1.3B 参数（SigLIP2-400M + Qwen3.5-0.8B），262k 上下文，视觉编码 FLOPs 比上一代少 50%+。同任务 token 成本比 Qwen3.5-0…

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

@cevenif: 用苹果电脑跑本地大模型的朋友，有个工具值得盯上——Rapid-MLX。它在 M 系列芯片上的推理速度比 Ollama 快 2 到 4 倍，因为它是直接基于苹果的 MLX 框架开发的，对芯片架构的压榨更彻底。几个关键点： KV 缓存裁剪加…