标签
为Orange Pi AIPro(Ascend 310B NPU)上的MiniCPM-V 4.6开发了自定义C++推理引擎,通过为matmul和causal-conv1d编写优化的AscendC内核,实现了相比原始框架2倍的加速,达到5.90 tokens/s。
OpenBMB感谢@_akhaliq贡献了MiniCPM-V 4.6的Hugging Face演示,使用Gradio服务器实现灵活的前端定制。