标签
一位用户报告称,通过GGUF量化在单张RTX 3090上本地运行了谷歌的Gemma 4 12B模型,发现其性能强劲,包括真实的256k上下文、多模态能力以及函数调用功能,在编码任务上甚至优于更大的70B模型。
本文系统研究了结合云端LLM与端侧SLM的混合多智能体系统,揭示了任务依赖的最优架构,并挑战了“更多前沿算力总是能提升性能”的假设。
MobileExplorer是一个新框架,通过在模型推理期间对UI元素进行轻量级并行探索,加速移动GUI智能体的设备端推理,将推理步骤和延迟降低23%,同时保持或提高任务成功率。
本文介绍了 ExecuTorch,这是一个原生的 PyTorch 部署框架,旨在无需模型转换或重新实现,即可在多样化的边缘设备上运行 AI 模型。
本文指出,出于隐私和可靠性方面的顾虑,不应依赖云端托管的 AI API,并倡导采用设备端 AI 处理模式,文中以一款利用 Apple 本地模型 API 的原生 iOS 应用为例进行了说明。
一篇探讨边缘AI在何处产生最大影响的讨论帖:自主系统与机器人技术、低功耗视觉系统、私有本地LLM,或带宽受限的工业部署。