on-device-ai

#on-device-ai

Chrome 的 AI 功能可能正在占用你电脑的 4GB 存储空间

Lobsters Hottest ↗ · 8小时前缓存

Google Chrome 正在自动向用户设备下载一个 4GB 的 Gemini Nano 模型权重文件，用于支持设备端 AI 功能，如诈骗检测和写作辅助，但通常不会明确告知用户所需的存储空间。用户可以在 Chrome 设置中关闭"设备端 AI"开关，以删除该文件并阻止重新下载。

0 人收藏 0 人点赞

#on-device-ai

@garrytan: 正在下载…在 128GB MacBook Pro 上本地运行，拥有 100 万 token 上下文窗口和据称可用的编程智能体能力，真是

X AI KOLs Following ↗ · 10小时前缓存

Garry Tan 对一款可在 128GB MacBook Pro 上本地运行的模型感到兴奋，该模型拥有 100 万 token 的上下文窗口和编程智能体能力，他认为这是一个重要里程碑。

0 人收藏 1 人点赞

#on-device-ai

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快，在 MacBook Pr… 上的 token 生成速度提升约 40%

X AI KOLs Following ↗ · 昨天

atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能，在 MacBook Pro M5 Max 上通过多 token 预测（MTP）推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。

0 人收藏 0 人点赞

#on-device-ai

在日用设备上启用隐私保护型 AI 训练

MIT News — Artificial Intelligence ↗ · 2026-04-29 缓存

麻省理工学院研究人员开发了一种名为 FTTE 的新框架，将隐私保护型联邦学习的速度提升了 81%，使得在智能手表和传感器等资源受限的边缘设备上高效进行 AI 训练成为可能。

0 人收藏 0 人点赞

#on-device-ai

AngelSlim/Hy-MT1.5-1.8B-1.25bit

Hugging Face Models Trending ↗ · 2026-04-28 缓存

腾讯 AngelSlim 团队发布了 Hy-MT1.5-1.8B-1.25bit，这是一款高度压缩的 1.25 位机器翻译模型，支持 33 种语言，体积仅 440MB，可在设备端运行。该模型采用 Sherry 量化算法，实现了世界一流的翻译质量，可与体积大得多的模型相媲美。

1 人收藏 1 人点赞

#on-device-ai

google/gemma-4-31B-it-assistant

Hugging Face Models Trending ↗ · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4，这是一个开源权重的多模态模型家族，支持文本、图像、视频和音频，具备增强的推理和编码能力，并通过多令牌预测（MTP）实现高达 2 倍的解码速度提升。

0 人收藏 0 人点赞

#on-device-ai

是什么阻碍了 App 把用户设备当成服务器、本地跑 LLM？

Reddit r/singularity ↗ · 2026-04-22

一位用户思考为何更多 App 不在手机上直接跑本地 LLM，指出 Gemma 2-4B 模型已能离线运行，在接近 GPT-4o 质量的同时还能省掉服务器成本。

0 人收藏 0 人点赞

#on-device-ai

苹果押注AI靠硬件，而非软件

Reddit r/artificial ↗ · 2026-04-21

苹果赌定AI的未来取决于定制硬件与iPhone先进处理器实现的本地推理，而非云端大模型。

0 人收藏 0 人点赞

#on-device-ai

@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型，通过使用小众 Zig 语言实现并优化模型推理，证明了新模型的泛化能力。经过 4,000 多次工具调用，超过 12 小时的不间断运行，K2.6 模型共迭代了 14 …

X AI KOLs Timeline ↗ · 2026-04-21 缓存

K2.6在Mac本地成功部署Qwen3.5-0.8B模型，使用Zig语言实现推理优化，经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s，比LM Studio快20%。

0 人收藏 0 人点赞

#on-device-ai

微语言模型实现即时响应

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

研究人员推出 8M–30M 参数的微型语言模型，可在本地设备瞬间生成前几个词，再由云端模型补全，让智能手表等超受限设备也能拥有响应迅速的 AI 体验。

0 人收藏 0 人点赞

#on-device-ai

@sudoingX：这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型，持续 15 tok/s，22.8 o…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

一台笔记本借助 Hermes agent 本地运行 31B 模型，速度 15 tok/s，显存占用 22.8 GB，功耗 94 W，实现完全自主、私密、无需云端的 AI 推理。

0 人收藏 0 人点赞

#on-device-ai

有人在32GB Mac上使用opencode、claude code或类似工具，通过Qwen3.6-35B-A3B-UD-Q4_K_M实际完成编码工作吗？

Reddit r/LocalLLaMA ↗ · 2026-04-19

我在一台配备32GB RAM的M2 Macbook Pro上运行Qwen3.6-35B-A3B-UD-Q4_K_M。我使用的是相当新版本的llama.cpp和opencode。为了避免llama-server因内存耗尽而直接崩溃，我必须将上下文窗口设置为32768个token。这一点后来被证明很重要。作为一次希望能有些参考价值的测试，我给opcode布置了一个之前Claude Code配合Opus 4.7能够完成的任务。项目不算大，但任务涉及深入挖掘应用程序的前后端，并找出一个连我（作为原始开发者，在AI之前）都没有一眼看出的问题。

0 人收藏 0 人点赞

#on-device-ai

Waypoint-1.5: 面向日常GPU的更高保真交互式世界

Hugging Face Blog ↗ · 2026-04-09 缓存

Overworld发布Waypoint-1.5，一款面向日常GPU的实时视频世界模型，具备改进的视觉保真度，并新增360p和720p档位以支持更广泛的硬件设备。

0 人收藏 0 人点赞

#on-device-ai

Gemma 4：同等参数规模下能力最强的开源模型

Google DeepMind Blog ↗ · 2026-04-02 缓存

Google DeepMind 发布 Gemma 4，这是其迄今为止能力最强的开源模型系列，专为高级推理和智能体工作流设计，在多种参数规模下均实现了极高的智能密度。

0 人收藏 0 人点赞

#on-device-ai

Gemma 4 发布：前沿多模态智能，端侧可用

Hugging Face Blog ↗ · 2026-04-02 缓存

Google DeepMind 发布 Gemma 4，这是一系列前沿多模态模型，已在 Hugging Face 上以 Apache 2 协议开源，针对端侧部署进行了优化，并支持多种推理框架。

0 人收藏 0 人点赞

#on-device-ai

unsloth/gemma-4-26B-A4B-it-GGUF

Hugging Face Models Trending ↗ · 2026-04-01 缓存

# unsloth/gemma-4-26B-A4B-it-GGUF · Hugging Face 来源：[https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) ## [https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF#read-our-how-to-run-gemma-4-guide](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF#read-our-how-to-run-gemma-4-guide)阅读我们的[如何运行 Gemma 4 指南](https://docs.unsloth.ai/models/gemma-4)！ *请参阅[Unsloth Dynamic 2.0 GGUFs](https://unsloth.ai/docs/basics/unslot

0 人收藏 0 人点赞

#on-device-ai

Gemma 3n 介绍：开发者指南

Google DeepMind Blog ↗ · 2025-10-25 缓存

Google DeepMind 宣布全面发布 Gemma 3n，这是一款面向移动端的多模态 AI 模型，采用 MatFormer 架构，针对设备端效率进行了优化。此次发布包括 E2B 和 E4B 两种变体，它们内存占用低，同时在推理、编程和多语言任务中表现出色。

0 人收藏 0 人点赞

#on-device-ai

Gemini Robotics On-Device 将人工智能带到本地机器人设备

Google DeepMind Blog ↗ · 2025-06-24 缓存

Google DeepMind 推出 Gemini Robotics On-Device，这是一个高效的 VLA 模型，可以在机器人设备上本地运行，实现低延迟操作和离线功能，同时保持强大的灵巧操控能力和任务泛化能力。该模型可以通过仅 50-100 个演示进行微调，并附带供开发者使用的 SDK。

0 人收藏 0 人点赞

on-device-ai

提交意见反馈