在M4 Max上实现本地Qwen 3.5/3.6完全离线生成会议摘要。关掉Wi-Fi进行演示。这就是未来。

Reddit r/LocalLLaMA 2026/05/14 13:39 产品

local-ai meeting-summaries on-device llama-cpp qwen product-update offline-ai

摘要

Hedy会议应用现在支持通过llama.cpp使用本地模型（如Qwen和Gemma）进行完全离线的AI摘要，并提供自带模型和硬件感知模型选择选项。此次更新使得在Apple Silicon和Windows GPU上无需Wi-Fi即可运行，不过云端仍提供更快的速度和更高的质量。

我是Hedy（一款AI会议应用）的创始人。我是本地AI的坚定支持者，我们一直在努力使其“对消费者友好”。Hedy中的语音识别始终在设备端运行（使用whisper.cpp，现在也支持parakeet）。最新发布的是，AI流水线的其余部分（摘要、详细笔记、会议聊天、实时辅导）现在也可以通过llama.cpp在设备端运行。关闭Wi-Fi，没有任何数据离开笔记本电脑。上方视频展示了完整流程。以下是一些技术细节： **开箱即用的支持模型**：Qwen 3.6、Qwen 3.5和Gemma 4系列。范围从低端的2B（适用于较新的iPhone）到作为大多数笔记本电脑最佳选择的9B Qwen 3.5，再到拥有更多VRAM的用户可用的最新Qwen 3.6（27B和35B）。每个模型支持多种量化级别。例如，在9B Qwen上，您可以根据内存余量选择Q4或Q8。 **自带模型**：您可以从Hugging Face下载任何兼容的GGUF模型并加载到Hedy中，不限于精选列表。这是有意为之。本地AI领域发展迅速，我们不想让用户因等待我们更新捆绑选项而受限。 **加速支持**：Apple Silicon上的Metal，Windows GPU上的Vulkan，必要时回退到CPU。Mac的统一内存意味着总系统RAM是限制因素。Windows受VRAM限制，选择器会提示何时图层会溢出到CPU。 **应用界面适配**：在下载模型前，选择器会告知您该模型是否非常适合、勉强适配或完全不兼容您的硬件。它还会显示当前内存占用，以便您了解可用余量。没有静默的OOM。 **诚实的权衡：** * 对于许多用例，云端仍然更快、质量更高。本地是可选加入的。27B+参数模型大致匹配我们云端模型的质量。 * 没有静默的云端回退。如果本地失败，您会看到错误。这是有意为之。 * 移动端仅限于最小模型（iPhone 15 Pro及以后机型，以及M系列iPad）。较旧的设备不会看到切换开关。 * Android和Web已在路线图上，但尚未就绪。Android的硬件差异太大，目前无法提供一致的体验。 * 自动建议占用资源较高（因为在会议期间频繁运行推理）。应用会提示您在本地会话期间将其禁用。 **关于演示的具体信息：** 演示使用的是M4 Max运行Qwen 3.5 4B（为了优先保证演示速度）。视频中的摘要处理约10分钟的会议记录大约用了15秒。实际效果会因模型大小和硬件而异。欢迎提问关于模型选择、BYO设置、集成挑战或其他技术问题。我会在帖子里停留几个小时。

查看原文

在M4 Max上实现本地Qwen 3.5/3.6完全离线生成会议摘要。关掉Wi-Fi进行演示。这就是未来。

相似文章

在6GB GPU上进行本地会议总结的最低门槛：qwen3.5:0.8b耗时57秒，Granite 4 350M出现幻觉

@stevibe: 我进一步探索了本地模型的另一种可能性：将 Qwen3.6 35B A3B 与 NVIDIA LocateAnything-3B 结合，作为一个本地计算机使用代理…

@rohanpaul_ai：Gemma 4（特别是其面向边缘优化的 E2B 与 E4B 量化版）通过 Locally 等应用，在 iPhone 上实现完全离线运行……

Qwen3.6 35B-A3B在笔记本上的运行：我的从零到一时刻

在M1 Max上使用Zoo Code运行Qwen 3.6 35b MoE真是太棒了！完全本地化、电池供电的编码利器！

提交意见反馈