在M4 Max上实现本地Qwen 3.5/3.6完全离线生成会议摘要。关掉Wi-Fi进行演示。这就是未来。
摘要
Hedy会议应用现在支持通过llama.cpp使用本地模型(如Qwen和Gemma)进行完全离线的AI摘要,并提供自带模型和硬件感知模型选择选项。此次更新使得在Apple Silicon和Windows GPU上无需Wi-Fi即可运行,不过云端仍提供更快的速度和更高的质量。
我是Hedy(一款AI会议应用)的创始人。我是本地AI的坚定支持者,我们一直在努力使其“对消费者友好”。Hedy中的语音识别始终在设备端运行(使用whisper.cpp,现在也支持parakeet)。最新发布的是,AI流水线的其余部分(摘要、详细笔记、会议聊天、实时辅导)现在也可以通过llama.cpp在设备端运行。关闭Wi-Fi,没有任何数据离开笔记本电脑。上方视频展示了完整流程。以下是一些技术细节:
**开箱即用的支持模型**:Qwen 3.6、Qwen 3.5和Gemma 4系列。范围从低端的2B(适用于较新的iPhone)到作为大多数笔记本电脑最佳选择的9B Qwen 3.5,再到拥有更多VRAM的用户可用的最新Qwen 3.6(27B和35B)。每个模型支持多种量化级别。例如,在9B Qwen上,您可以根据内存余量选择Q4或Q8。
**自带模型**:您可以从Hugging Face下载任何兼容的GGUF模型并加载到Hedy中,不限于精选列表。这是有意为之。本地AI领域发展迅速,我们不想让用户因等待我们更新捆绑选项而受限。
**加速支持**:Apple Silicon上的Metal,Windows GPU上的Vulkan,必要时回退到CPU。Mac的统一内存意味着总系统RAM是限制因素。Windows受VRAM限制,选择器会提示何时图层会溢出到CPU。
**应用界面适配**:在下载模型前,选择器会告知您该模型是否非常适合、勉强适配或完全不兼容您的硬件。它还会显示当前内存占用,以便您了解可用余量。没有静默的OOM。
**诚实的权衡:**
* 对于许多用例,云端仍然更快、质量更高。本地是可选加入的。27B+参数模型大致匹配我们云端模型的质量。
* 没有静默的云端回退。如果本地失败,您会看到错误。这是有意为之。
* 移动端仅限于最小模型(iPhone 15 Pro及以后机型,以及M系列iPad)。较旧的设备不会看到切换开关。
* Android和Web已在路线图上,但尚未就绪。Android的硬件差异太大,目前无法提供一致的体验。
* 自动建议占用资源较高(因为在会议期间频繁运行推理)。应用会提示您在本地会话期间将其禁用。
**关于演示的具体信息:** 演示使用的是M4 Max运行Qwen 3.5 4B(为了优先保证演示速度)。视频中的摘要处理约10分钟的会议记录大约用了15秒。实际效果会因模型大小和硬件而异。欢迎提问关于模型选择、BYO设置、集成挑战或其他技术问题。我会在帖子里停留几个小时。
相似文章
在6GB GPU上进行本地会议总结的最低门槛:qwen3.5:0.8b耗时57秒,Granite 4 350M出现幻觉
作者介绍了VoiceFlow,这是一款开源的本地听写和会议转录工具,并在6GB GPU上对小语言模型(qwen3.5:0.8b和Granite 4 350M)进行了会议总结基准测试,发现0.8B的Qwen可行,而低于500M的模型会出现幻觉。同时,作者向社区寻求在低显存环境下的长上下文总结解决方案。
@stevibe: 我进一步探索了本地模型的另一种可能性:将 Qwen3.6 35B A3B 与 NVIDIA LocateAnything-3B 结合,作为一个本地计算机使用代理…
演示了一个本地计算机使用代理,结合了 Qwen3.6 35B A3B 和 NVIDIA LocateAnything-3B 模型,通过截图执行切换 Mac 显示模式等任务,无需无障碍 API,完全在本地硬件上运行。
@rohanpaul_ai:Gemma 4(特别是其面向边缘优化的 E2B 与 E4B 量化版)通过 Locally 等应用,在 iPhone 上实现完全离线运行……
Google 的 Gemma 4 E2B/E4B 量化模型现已通过 Locally AI 等应用,在 iPhone 上实现完全离线运行,借助 Apple Neural Engine 进行本地推理。
Qwen3.6 35B-A3B在笔记本上的运行:我的从零到一时刻
作者分享了在ASUS Zenbook Pro 14上本地运行Qwen3.6 35B-A3B的体验,在32k上下文下实现了27 TPS的生成速度,标志着向完全本地化AI以保护隐私的个人里程碑。
在M1 Max上使用Zoo Code运行Qwen 3.6 35b MoE真是太棒了!完全本地化、电池供电的编码利器!
本文讨论了在Apple M1 Max Mac上使用Zoo Code本地运行Qwen 3.6 35b混合专家模型,突出其作为电池供电的编码助手的能力。