标签
YOLO26 是一个于2026年1月发布的多任务计算机视觉模型系列,具备无需 Non-Maximum Suppression 的端到端检测功能以降低延迟,并针对边缘部署进行了优化,具有改进的CPU推理能力和紧凑设计。
微软开源了bitnet.cpp,这是一个1位LLM推理框架,可以在没有GPU的本地CPU上运行100B参数模型,实现6.17倍的更快推理和82.2%的能耗降低。
逆向工程 Qualcomm NPU 编译器揭示了未文档化的 VTCM 内存管理、基于 MILP 的布局、自动精度更改,以及一个用于边缘部署优化的隐藏分析模拟器(Hextimate)。
在配备128GB内存的AMD Ryzen AI Max+ 395上测试DeepSeek v4 Flash,本地运行284B MoE模型(13B活跃参数)可达约15 TPS。成本仅需3000美元,而数据中心配置需25000美元以上,凸显了在消费级硬件上运行大型模型的可行性。
演示在1984年丰田Corolla收音机上运行Le Gros Chaton(可能是一个轻量级AI模型),展示在复古硬件上的边缘AI应用。
哈佛大学开源《Machine Learning Systems》教材,系统讲解ML系统设计、数据工程、模型部署、MLOps和边缘AI等实践内容,旨在帮助将AI从研究落地到生产环境,免费获取于GitHub。
APEX 提出了一个面向生产级AI智能体的三层自进化框架,同时优化了控制层(harness)、行为原则和工作流拓扑。在生产级智能体上的实验显示,健康评分和工作流质量显著提升,且仅需极少的LLM调用。
一颗名为 Yam-9 的卫星在轨使用了 Google DeepMind 的 Gemma 3 视觉语言模型,基于自然语言查询自主识别感兴趣区域,标志着首次有报道在太空中使用 VLM,并预示着卫星运行向更加自主的方向转变。
PrintGuard 2.0 是对基于 ShuffleNetV2 骨干网络和原型网络的少样本 FDM 故障检测器的重大重写,现在通过平台抽象层实现了单一 Python 引擎,可在 CPython 和浏览器中的 Pyodide 上无需修改运行,支持每台打印机的灵敏度调整和公平推理调度。
D2H-AD是一种新颖的异常检测框架,采用超维计算(HDC),结合了基于距离和密度感知的编码。它在多个基准测试中优于五种基线方法,为边缘AI和物联网提供轻量级、可解释且高效的性能。
PaddleOCR 发布 PP-OCRv6,全新的 OCR 模型系列,参数量从 1.5M 到 34.5M,提供更高的精度和更快的推理速度,支持 50 种语言以及 PCB、CAD 图纸等新场景,采用 Apache 2.0 开源许可证。
Sigma-Branch 将预训练的稠密网络重构成一个层次化二叉树结构,包含共享主干、路由器和专用叶子节点。在 CIFAR-100、ImageNet-1K 和 ModelNet40 上,每次推理的活跃参数减少 58-60%,同时精度下降不超过基线精确率的 1.72 个百分点。
一位开发者通过在NVMe SSD上流式传输模型权重,在树莓派5上运行了DeepSeek-V4-Flash,达到了1.3 tokens/秒的速率,功耗仅8瓦,证明了前沿级别的开放权重模型在低成本、离线硬件上的可行性。
详细介绍了为运行 Hermes Agent 而构建的 Jetson Orin NX 系统及基准测试,使用 Gemma 4 26B 量化模型,在 8K 上下文中达到 14.65 tok/s,在 60K 上下文中达到 10.21 tok/s。
本文提出了一种两阶段方法论,用于在空间NPU上进行端到端大语言模型(LLM)部署,从人工引导开发逐步过渡到自主智能体技能系统。该系统在参考模型上实现了预填充阶段2.2倍、解码阶段4.0倍的加速,并以极少的人工引导在AMD XDNA 2 NPU上自主部署了另外八个LLM。
一场静默的革命正在让强大的AI模型无需昂贵GPU即可在消费级硬件上运行,这得益于量化技术和优化实现(如llama.cpp的Gemma4 MTP支持)的突破,为爱好者、小型企业和边缘计算打开了大门。
作者宣布了一篇新的博客文章,内容是关于将三台Jetson Nano Orin Super组成集群,用于分布式训练和推理,延续了一个系列,旨在帮助人们使用易于获取的硬件构建小型计算集群。
一位开发者认为,边缘AI社区忽视了那些可以在智能手机等设备上本地运行的小型专门模型,并以自建的离线摩尔斯电码识别功能为例。该项目使用了小于5MB的AI模型,基于TensorFlow/Keras和LiteRT,从数据生成到移动端集成的整个流程均为自建。
Google发布了Gemma 4 12B,这是一个采用Apache 2.0许可证的开源多模态AI模型,可在拥有16GB内存的笔记本电脑上本地运行,面向企业边缘部署。
作者在本地新机器上使用Qwen3.6-35B-A3B模型和oMLX工具进行日常任务,发现速度和效果远超预期,甚至在PA和Coding场景下优于远程LLM,体现了端侧AI能力的显著提升。