@berryxia: Apple 一直其实在赌端侧模型的应用! 统一架构内存就是端侧模型的天然温床! 统一内存也就是,内存即显存。 也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了,我看完…
摘要
OpenBMB 发布了 MiniCPM-V 4.6,一个 1.3B 参数的多模态模型,通过高分辨率视觉处理和高效压缩技术,在消费级硬件和手机上实现快速推理,性能超过同类大模型,且全面开源支持多种推理和量化框架。
Apple 一直其实在赌端侧模型的应用! 统一架构内存就是端侧模型的天然温床! 统一内存也就是,内存即显存。 也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了,我看完觉得现在小模型在边缘设备上真的越来越能打。 它重点做了高分辨率视觉处理,专门针对消费级硬件和手机优化。 他们用了 LLaVA-UHD v4 的新技术,直接把视觉编码成本砍了 55%,让模型能在普通手机和电脑上原生跑起来,效率高得离谱。 实际测下来,它在几个关键多模态基准上超过了 Gemma4-E2B-it 和Qwen3.5-0.8B,而且用的 token 只有后者的 2.5%。 速度方面也特别能看:在 RTX 4090 上处理 3136² 高清图片时,首 token 时间只要 75.7ms,比 Qwen3.5-0.8B 快 2.2 倍,token 吞吐量还高出 1.5 倍左右。 技术上他们玩了 Intra-ViT 早期压缩和混合 4x/16x 视觉压缩,基本把分辨率和延迟的曲线拉平了,想象一下以后手机上直接跑高分辨率视觉任务都不会卡。 对开发者来说也特别友好:iOS、Android、HarmonyOS 部署代码全开源,几步就能跑起来。 消费级 GPU 上就能 fine-tuning,还原生支持 SGLang、vLLM、llama.cpp、Ollama,GGUF、BNB、AWQ、GPTQ 各种量化格式都有,直接就能用。 Hugging Face、GitHub、Modelscope、网页 demo 和 App demo 都放出来了,想玩的同学可以直接去试。 我改天搞个demo看看
相似文章
@berryxia: 我靠,这不直接抢了苹果的活儿啊! 6.6B的小模型直接把Siri和一堆云端巨头干到闭嘴,还只吃7GB内存就跑在Mac本地。 CJ Zafir他们搞的Mac-1,不光参数小到离谱,还一次性接了487个Mac原生工具,能链式调用、自动推理、连…
CJ Zafir团队推出了Mac-1,一个6.6B参数的小模型,可在Mac本地运行仅需7GB内存,能链式调用487个Mac原生工具,推理速度达65 tok/s,旨在颠覆云端大模型主导的Agent范式。
@FeitengLi: OpenBMB 开源 MiniCPM-V 4.6 了,1.3B 参数(SigLIP2-400M + Qwen3.5-0.8B),262k 上下文,视觉编码 FLOPs 比上一代少 50%+。 同任务 token 成本比 Qwen3.5-0…
OpenBMB releases MiniCPM-V 4.6, a 1.3B-parameter multimodal LLM with 262k context and significantly reduced visual encoding FLOPs, achieving strong benchmark performance and broad inference framework support.
@NFTCPS: 4GB显存跑70B大模型?这事儿真成了! AirLLM玩了个骚操作——分层推理,不一次性把模型怼进显存,而是一层层加载、算完就扔,硬生生把巨无霸塞进小破卡。 最骚的是:100%开源,白嫖警告 https://github.com/0xSo…
AirLLM 是一个完全开源的工具,通过分层推理技术(逐层加载并立即释放显存),使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行,无需量化、蒸馏或剪枝,并已支持 Llama3.1 405B 在 8GB 显存上运行。
@awnihannun: 苹果在设备端部署了200亿参数的模型,这非常酷。你无法以任何合理的精度将200亿参数放入RAM中…
苹果发布了一款200亿参数的端侧模型,采用MoE变体,每次查询仅选择一次专家以放入NAND,从而在RAM受限的情况下实现推理。
@sitinme: 有一个挺有意思的开源项目,叫 Cider,专门给 Apple Silicon 芯片的 Mac 做本地 AI 推理加速。 很多人买了 Mac mini、MacBook Pro ,想在本地跑模型,但总会出现速度不够快、内存吃得猛的情况 其实 …
Cider 是一个开源项目,专为 Apple Silicon Mac 设计,通过充分利用 M 系列芯片的算力来加速本地 AI 推理,适配 MLX 生态,支持 Qwen、Llama 等模型,安装简单。