在M4 Max上实现本地Qwen 3.5/3.6完全离线生成会议摘要。关掉Wi-Fi进行演示。这就是未来。

Reddit r/LocalLLaMA 产品

摘要

Hedy会议应用现在支持通过llama.cpp使用本地模型(如Qwen和Gemma)进行完全离线的AI摘要,并提供自带模型和硬件感知模型选择选项。此次更新使得在Apple Silicon和Windows GPU上无需Wi-Fi即可运行,不过云端仍提供更快的速度和更高的质量。

我是Hedy(一款AI会议应用)的创始人。我是本地AI的坚定支持者,我们一直在努力使其“对消费者友好”。Hedy中的语音识别始终在设备端运行(使用whisper.cpp,现在也支持parakeet)。最新发布的是,AI流水线的其余部分(摘要、详细笔记、会议聊天、实时辅导)现在也可以通过llama.cpp在设备端运行。关闭Wi-Fi,没有任何数据离开笔记本电脑。上方视频展示了完整流程。以下是一些技术细节: **开箱即用的支持模型**:Qwen 3.6、Qwen 3.5和Gemma 4系列。范围从低端的2B(适用于较新的iPhone)到作为大多数笔记本电脑最佳选择的9B Qwen 3.5,再到拥有更多VRAM的用户可用的最新Qwen 3.6(27B和35B)。每个模型支持多种量化级别。例如,在9B Qwen上,您可以根据内存余量选择Q4或Q8。 **自带模型**:您可以从Hugging Face下载任何兼容的GGUF模型并加载到Hedy中,不限于精选列表。这是有意为之。本地AI领域发展迅速,我们不想让用户因等待我们更新捆绑选项而受限。 **加速支持**:Apple Silicon上的Metal,Windows GPU上的Vulkan,必要时回退到CPU。Mac的统一内存意味着总系统RAM是限制因素。Windows受VRAM限制,选择器会提示何时图层会溢出到CPU。 **应用界面适配**:在下载模型前,选择器会告知您该模型是否非常适合、勉强适配或完全不兼容您的硬件。它还会显示当前内存占用,以便您了解可用余量。没有静默的OOM。 **诚实的权衡:** * 对于许多用例,云端仍然更快、质量更高。本地是可选加入的。27B+参数模型大致匹配我们云端模型的质量。 * 没有静默的云端回退。如果本地失败,您会看到错误。这是有意为之。 * 移动端仅限于最小模型(iPhone 15 Pro及以后机型,以及M系列iPad)。较旧的设备不会看到切换开关。 * Android和Web已在路线图上,但尚未就绪。Android的硬件差异太大,目前无法提供一致的体验。 * 自动建议占用资源较高(因为在会议期间频繁运行推理)。应用会提示您在本地会话期间将其禁用。 **关于演示的具体信息:** 演示使用的是M4 Max运行Qwen 3.5 4B(为了优先保证演示速度)。视频中的摘要处理约10分钟的会议记录大约用了15秒。实际效果会因模型大小和硬件而异。欢迎提问关于模型选择、BYO设置、集成挑战或其他技术问题。我会在帖子里停留几个小时。
查看原文

相似文章