on-device

#on-device

利用移动NPU的高效端侧扩散大语言模型推理

arXiv cs.LG ↗ · 2026-06-15 缓存

本文提出了llada.cpp，一种NPU感知推理框架，用于在智能手机上加速扩散大语言模型（dLLM）。它引入了三种技术——Multi-Block Speculative Decoding、Dual-Path Progressive Revision和Swap-Optimized Memory Runtime——以使dLLM推理与移动NPU特性对齐，实现了相比CPU基线17-42倍的延迟降低。

0 人收藏 0 人点赞

#on-device

Gemma 12b 低于10瓦 6.5pp 1.3tg

Reddit r/LocalLLaMA ↗ · 2026-06-14

在Google Pixel 10 Pro上使用llama.cpp运行Gemma 12B模型，实现了每秒6.5个token的提示处理和每秒1.3个token的生成，功耗低于10瓦，展示了高效的设备端AI推理。

0 人收藏 0 人点赞

#on-device

Show HN: Trace – 离线Mac会议转录，可在通话中标记

Hacker News Top ↗ · 2026-06-13 缓存

Trace是一款Mac应用，能在本地转录会议内容，无需上传音频，用户可在通话中标记重要时刻，并获取清晰的Markdown转录稿。

0 人收藏 0 人点赞

#on-device

@paulabartabajo_: 给AI工程师的建议学习本地AI的最佳方式就是用本地AI去构建。过去7个月的7场动手实践网络研讨会。

X AI KOLs Timeline ↗ · 2026-06-12 缓存

过去7个月中7场动手实践的开源网络研讨会合集，聚焦于使用本地AI和小型语言模型进行构建，全部在设备端运行。

0 人收藏 0 人点赞

#on-device

Revi

Product Hunt ↗ · 2026-06-12

Revi 是一款在设备上运行的语音听写应用，无需云服务或账户。

0 人收藏 0 人点赞

#on-device

本地优先软件更易扩展

Lobsters Hottest ↗ · 2026-06-11 缓存

本文认为，像 Harper 语法检查器这样的本地优先软件通过在设备上运行代码来避免扩展问题，使其能够在无需额外服务器成本的情况下轻松应对流量高峰。

0 人收藏 0 人点赞

#on-device

@atomic_chat_hq: Atomic Chat 现已登陆 Hugging Face，我们正式成为全球最大 AI 平台的本地应用。可在你的设备上运行超过 200,000 个开放权重…

X AI KOLs Timeline ↗ · 2026-06-11 缓存

Atomic Chat 现已在 Hugging Face 上作为本地应用提供，用户可以在自己的设备上私密、本地运行超过 200,000 个开放权重模型。

0 人收藏 0 人点赞

#on-device

Synopsule

Product Hunt ↗ · 2026-06-11

Synopsule 是一款产品，提供设备端、私密的 AI 会议记录，确保数据本地存储。

0 人收藏 0 人点赞

#on-device

VTT for Mac

Product Hunt ↗ · 2026-06-11

VTT for Mac 是一款适用于 macOS 的语音转文字工具，提供完全设备端处理的选项以保护隐私。

0 人收藏 0 人点赞

#on-device

尝试对谷歌新的设备端听写模型（Eloquent）进行基准测试，但基本做不到

Reddit r/LocalLLaMA ↗ · 2026-06-10

一位用户尝试对谷歌使用专有模型的新设备端听写应用Eloquent进行基准测试，发现它经常漏词或返回不完整的转录文本，只有在完整输出时准确率才有竞争力。作者推测底层的聊天式模型有时拒绝进行转录。

0 人收藏 0 人点赞

#on-device

@akshay_pachaar: 苹果终于做到了。其新框架 Core AI 完全在 Apple 芯片上运行模型，因此推理发生在用户设备上…

X AI KOLs Following ↗ · 2026-06-09 缓存

苹果发布了 Core AI，这是一个新框架，可在 Apple 硅设备（iPhone、iPad、Mac、Vision Pro）上完全运行 AI 模型，无需服务器调用。它包含一个内存安全的 Swift API、用于 PyTorch 的模型导出配方、一个优化器和调试工具，支持 Qwen、Mistral 和 SAM3 等模型。

0 人收藏 0 人点赞

#on-device