on-device-inference

#on-device-inference

@googledevs：认识 LiteRT.js：@Google 的新网页端 Edge AI 运行时！我们已使从 PyTorch 转换到 #WebAI 变得更加容易…

X AI KOLs Timeline ↗ · 2026-07-09 缓存

Google 发布了 LiteRT.js，这是一个高性能的 JavaScript 运行时，利用 WebAssembly 和硬件加速直接在浏览器中运行 AI 模型，是 TensorFlow.js 的演进。

0 人收藏 0 人点赞

#on-device-inference

X AI KOLs Timeline ↗ · 2026-07-01 缓存

Xenova 使用 Fable 5 编写优化内核，在 M4 上的 WebGPU 中为 Gemma 4 实现了每秒 255 个 token 的速度，展示了用于端侧推理的代理内核优化。

0 人收藏 0 人点赞

#on-device-inference

Reddit r/LocalLLaMA ↗ · 2026-06-09 缓存

Apple MLX 团队推出 MLX LM Server，一个在 Mac 上完全本地运行 AI 智能体工作流的工具，支持连续批处理、分布式推理和 M5 神经加速，无需云端或 API 密钥。

0 人收藏 0 人点赞

#on-device-inference

Reddit r/artificial ↗ · 2026-06-04

一位用户报告称，通过GGUF量化在单张RTX 3090上本地运行了谷歌的Gemma 4 12B模型，发现其性能强劲，包括真实的256k上下文、多模态能力以及函数调用功能，在编码任务上甚至优于更大的70B模型。

0 人收藏 0 人点赞

#on-device-inference

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

本文系统研究了结合云端LLM与端侧SLM的混合多智能体系统，揭示了任务依赖的最优架构，并挑战了“更多前沿算力总是能提升性能”的假设。

0 人收藏 0 人点赞

#on-device-inference

arXiv cs.AI ↗ · 2026-05-27 缓存

MobileExplorer是一个新框架，通过在模型推理期间对UI元素进行轻量级并行探索，加速移动GUI智能体的设备端推理，将推理步骤和延迟降低23%，同时保持或提高任务成功率。

0 人收藏 0 人点赞

#on-device-inference

arXiv cs.LG ↗ · 2026-05-12 缓存

本文介绍了 ExecuTorch，这是一个原生的 PyTorch 部署框架，旨在无需模型转换或重新实现，即可在多样化的边缘设备上运行 AI 模型。

0 人收藏 0 人点赞

#on-device-inference

Hacker News Top ↗ · 2026-05-10 缓存

本文指出，出于隐私和可靠性方面的顾虑，不应依赖云端托管的 AI API，并倡导采用设备端 AI 处理模式，文中以一款利用 Apple 本地模型 API 的原生 iOS 应用为例进行了说明。

0 人收藏 0 人点赞

#on-device-inference

Reddit r/artificial ↗ · 2026-05-08

一篇探讨边缘AI在何处产生最大影响的讨论帖：自主系统与机器人技术、低功耗视觉系统、私有本地LLM，或带宽受限的工业部署。

0 人收藏 0 人点赞