on-device

#on-device

@laobaishare: 这太牛逼了。谷歌刚甩出一款免费 AI 语音听写应用，支持 iOS 和 Mac。所有付费功能全部解锁，不用订阅。 100% 免费，完全本地运行，由 Gemma 4 驱动。这里下载： https://ai.google.dev/edg…

X AI KOLs Timeline ↗ · 2026-06-03 缓存

谷歌推出一款免费AI语音听写应用，由Gemma 4驱动，支持iOS和Mac，完全本地运行，无需订阅。

0 人收藏 0 人点赞

#on-device

Microsoft Aion 1.0 Instruct 和 Aion 1.0 Plan 模型！

Reddit r/LocalLLaMA ↗ · 2026-06-03

微软在 Build 2026 上宣布了两款新的设备端 AI 模型：Aion 1.0 Instruct（一款开放权重的小型语言模型）和 Aion 1.0 Plan（一款 140 亿参数的推理与工具调用模型，适用于本地智能体工作流）。

0 人收藏 0 人点赞

#on-device

Show HN: 通过手机麦克风进行实时呼吸检测与生物反馈

Hacker News Top ↗ · 2026-06-02 缓存

一个开源项目，利用手机麦克风进行实时呼吸检测与生物反馈，在设备本地处理音频，无需穿戴设备或上传云端，以增强自我觉察能力。

0 人收藏 0 人点赞

#on-device

征询意见

Reddit r/artificial ↗ · 2026-06-01

一位独立开发者正在构建Scout，这是一个完全在设备上运行、无需云服务或账户的AI伴侣，并在测试版发布前寻求反馈。

0 人收藏 0 人点赞

#on-device

NVIDIA 在 RTX PC 和 DGX Spark 上全面升级本地 AI 智能体

NVIDIA Blog ↗ · 2026-06-01 缓存

NVIDIA 发布了 RTX Spark PC 和一系列更新，以在 RTX 和 DGX 生态系统中支持本地 AI 智能体，包括 OpenShell 运行时即将登陆 Windows、NemoClaw 扩展、性能提升以及与 Adobe 和 H Company 的集成。

0 人收藏 0 人点赞

#on-device

MiniCPM5-1B 表明小模型竞赛尚未结束

Reddit r/ArtificialInteligence ↗ · 2026-05-31 缓存

MiniCPM5-1B 是 OpenBMB 推出的一个拥有 10 亿参数的模型，在 AIME 2025 和 τ2-Bench Telecom 上取得了令人瞩目的成绩，超越了更大的模型。它从单个检查点同时提供快速模式和推理模式，这得益于包括监督微调、强化学习和在线策略蒸馏在内的三阶段后训练过程。

0 人收藏 0 人点赞

#on-device

google/magenta-realtime-2

Hugging Face Models Trending ↗ · 2026-05-28 缓存

Google DeepMind 发布了 Magenta RealTime 2，这是一个开源音乐生成模型，支持设备端流式处理，可通过文本、音频示例和 MIDI 实现低延迟控制。

0 人收藏 0 人点赞

#on-device

UI-KOBE：面向知识的轻量级图引导GUI代理行为探索

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

UI-KOBE 提出了一种框架，通过构建和利用特定应用的知识图谱来增强轻量级移动GUI代理，从而提高任务规划和执行效率。

0 人收藏 0 人点赞

#on-device

符号胜过浮点：用于设备上微调的Low-Rank Double-Binary Adaptation

arXiv cs.LG ↗ · 2026-05-26 缓存

LoRDBA将LoRA的浮点低秩因子替换为二元符号载体和通道级缩放，实现了高效的设备上微调，显著减少了占用空间，延迟开销极小，质量与fp16相当。

0 人收藏 0 人点赞

#on-device

MobileMoE：扩展端侧混合专家模型

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

MobileMoE 引入了高效的端侧混合专家语言模型，参数规模低于十亿，在性能和效率上均优于密集基线模型和现有的 MoE 模型。这些模型在开源数据集上训练，并在商用智能手机上展现出显著的加速效果。

0 人收藏 0 人点赞

#on-device

MiniCPM5-1B

Reddit r/LocalLLaMA ↗ · 2026-05-25 缓存

OpenBMB 发布了 MiniCPM5-1B，这是一个密集型1B参数Transformer模型，在开源1B级模型中达到SOTA，专为设备端部署设计，支持混合推理和长上下文。

0 人收藏 0 人点赞

#on-device

@heyshrutimishra: 全尺寸AI模型现在可以在手机上运行。这就是 BitCPM，一个来自 ModelBest、清华大学和 OpenBMB 的全新开源模型。……

X AI KOLs Following ↗ · 2026-05-25 缓存

BitCPM 是一个来自 ModelBest、清华大学和 OpenBMB 的新开源模型，它使用三元权重（-1,0,1）在手机上运行全尺寸AI模型。

0 人收藏 0 人点赞

#on-device

@HuggingModels：Gemma 4 来了，它针对 Apple Silicon 进行了优化。这款 4 位量化模型在您的 Mac 上运行快速，而不仅仅是在…

X AI KOLs Timeline ↗ · 2026-05-24 缓存

Gemma 4 是一款针对 Apple Silicon 优化的 4 位量化模型，能够在 Mac 设备上实现快速本地推理，减少对云计算的依赖。

0 人收藏 0 人点赞

#on-device

@AlphaSignalAI：一个66M参数的模型刚刚在树莓派上击败了ElevenLabs。文本转语音多年来一直存在于云端。每个语音…

X AI KOLs Timeline ↗ · 2026-05-22 缓存

Supertonic 3是一个99M参数的开源TTS模型，完全在设备上运行，在树莓派上击败了ElevenLabs，在笔记本电脑CPU上的性能是实时的167倍。

0 人收藏 0 人点赞

#on-device

@googlegemma: 我们正在进入设备端自动化的新时代。观看 Gemma 4 E4B 直接使用…导航和操控 iOS 模拟器

X AI KOLs Timeline ↗ · 2026-05-21 缓存

Google Gemma 展示了 Gemma 4 E4B 使用 Argent 自主导航和操控 iOS 模拟器，展现了设备端自动化的能力。

0 人收藏 0 人点赞

#on-device

我正在推出iPhone上最快、最强大的本地AI图像生成器

Reddit r/ArtificialInteligence ↗ · 2026-05-21

推出PhoneDiffusion，一款适用于iPhone的本地AI图像生成器，生成时间低于5秒，注重隐私，无需账户。

0 人收藏 0 人点赞

#on-device

@FeitengLi: Hy-MT2 新的开源多语言翻译模型能力可以跟顶尖大模型匹配、支持 33 种语言之间的互译，而且具备灵活的 Instruct 能力，实现了 2-bit 量化不足 500MB 的空间占用可以很好的跑在端侧 https://modelsc…

X AI KOLs Timeline ↗ · 2026-05-21 缓存

Hy-MT2 is a new open-source multilingual translation model from Tencent Hy that supports 33 languages, offers flexible instruction capabilities, and achieves 2-bit quantization under 500MB for on-device deployment.

1 人收藏 1 人点赞

#on-device

@AdinaYakup: Hy-MT2 来自@腾讯混元的新翻译模型系列 1.8B/7B/30B-A3B MoE 支持33种语言 1.8B > 440MB 通过…

X AI KOLs Following ↗ · 2026-05-21 缓存

腾讯混元发布了Hy-MT2翻译模型系列，最高含30B参数的MoE模型，支持33种语言，并经过量化可用于设备端。

0 人收藏 0 人点赞

#on-device

@_vmlops: 微软的FARA-7B可以为你使用电脑 7B参数...自主点击、滚动、填写表单、订票等

X AI KOLs Timeline ↗ · 2026-05-18 缓存

微软发布了Fara-7B，一个70亿参数的小型语言模型，可以自主控制电脑执行点击、滚动、填写表单等任务，在设备上运行，并在基准测试中击败了OpenAI的computer-use agent等更大模型。

0 人收藏 0 人点赞

#on-device

@rohanpaul_ai: 设备端小模型的可能性太多了。@adrgrondin 正在 iPhone 17 Pro 上运行 Google 的 Gemma 4 E2B。大约 4…

X AI KOLs Following ↗ · 2026-05-17 缓存

Google 的 Gemma 4 E2B 通过 MLX 优化在 iPhone 17 Pro 上运行演示，达到约 40 tokens/秒，支持 128K 上下文以及离线思考模式，适用于编程和数学。

0 人收藏 0 人点赞

on-device

提交意见反馈