在6GB GPU上进行本地会议总结的最低门槛:qwen3.5:0.8b耗时57秒,Granite 4 350M出现幻觉
摘要
作者介绍了VoiceFlow,这是一款开源的本地听写和会议转录工具,并在6GB GPU上对小语言模型(qwen3.5:0.8b和Granite 4 350M)进行了会议总结基准测试,发现0.8B的Qwen可行,而低于500M的模型会出现幻觉。同时,作者向社区寻求在低显存环境下的长上下文总结解决方案。
披露:这是我开发的。开源、MIT许可、支持Windows和Linux。与[voiceflow.com](http://voiceflow.com)(聊天机器人SaaS,名称冲突,见谅)无关。为什么做这个:我希望完全本地的听写和会议转录,因为音频不应该为了变成文本而离开本机。我有一块6GB的GPU每天大部分时间闲置。于是我构建了它:按住热键,faster-whisper本地转录,文本粘贴到光标处。v1.6.0今天发布,增加了会议记录器:将麦克风和系统音频合并为一个立体声文件,本地转录,摘要发送到你指定的任意端点(Ollama, llama.cpp, Groq, OpenAI)。整个产品中唯一的网络调用是可选的摘要,而且你可以选择它的去向。与这个子论坛相关的部分:在真实工作负载上的小模型。v1.6.0是我实际在真实会议记录上进行基准测试的借口,而不是玩具提示。我首先尝试了最新的小Qwen模型,qwen3.5:0.8b(873M,Q8\_0)。测试平台:RTX 3060笔记本6GB,加载Whisper后约4.3GB空闲,Ollama 0.23,Arch。输入:一个真实的4分钟会议,约2900字符。它可以工作,但有一个注意事项。Ollama在这个GPU上默认的VRAM感知num\_ctx为4096,对于默认开启推理的推理模型,在用户可见token出现之前上下文就会被消耗完。一行的Modelfile修复:FROM qwen3.5:0.8b PARAMETER num\_ctx 16384 之后,它流式输出了一个1562字符的结构化摘要,耗时57秒,VRAM占用2.2GB。TL;DR、决策、行动项、未解决的问题,一应俱全。老实说,比我对低于1B模型的预期要好。对于“但你还没有试足够小的模型”的反驳:我在相同工作负载上验证了Granite 4.0 350M。速度上它碾压(每个摘要0.6到2.8秒,对比0.8B Qwen的57秒),并且结构清晰,各部分都在正确的位置。然后我读了输出。在一个关于Anthropic收购Bun的会议记录上,Granite返回了“Anthropic被Anthropic收购”,并且捏造了Binance作为一个讨论话题。另一个4分钟的会议记录被转化成了星际迷航的舰桥日志(“Starship Cassiopeia”、“Tao City F”、殖民飞船Andromeda)。关键词匹配,关系混乱。所以qwen3.5:0.8b-vf对我来说是工作的最低门槛,我还没见过从低于500M的模型上看到任何连贯的输出,如果有人证明我错了,我持开放态度。对于不想本机运行的人:Groq上llama-3.3-70b的免费版表现稳定。每次摘要约2秒,输出比本地0.8B更紧凑,唯一的问题是有一个4小时的会议记录超出了它们的上下文窗口。对于低于这个长度的任何内容,这是一个真正的免费选项。我真正想得到答案的问题,既然这是懂行的子论坛:低显存下的长上下文结构化摘要。0.8B Qwen在16K上下文下轻松处理4分钟的会议。对于1-2小时的记录(约30K-60K token),在6-8GB GPU上,什么方案可行?扩大上下文并增加VRAM占用、分块Map-Reduce,还是另一种不会在长输入上崩溃的小模型?我需要一种能够保持结构(TL;DR + 章节 + 要点)的方案,在输入变长时依然有效,而不需要24GB的VRAM。应用:Windows上一个.exe,Linux上一个.AppImage。Pyloid + React + faster-whisper + SQLite,CUDA自动检测,CPU回退。模型、麦克风和热键在一分钟内完成设置。Claude是许多样板代码和Qt线程复杂性的结对编程助手;架构和硬性bug是我的,git历史如实记录。仓库和1.6.0版本:[https://github.com/infiniV/VoiceFlow](https://github.com/infiniV/VoiceFlow) [https://github.com/infiniV/VoiceFlow/releases/tag/v1.6.0](https://github.com/infiniV/VoiceFlow/releases/tag/v1.6.0) 网页:[https://get-voice-flow.vercel.app/](https://get-voice-flow.vercel.app/) 主要是想听听答案。如果你觉得有用,可以给个星标,但有bug报告在Issues中更有用。
相似文章
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
高显存本地编码模型——依然首选 Qwen 3.6 27B 吗?
用户分享了使用 Qwen 3.6 27B 进行本地编码任务的经验,并寻求适合拥有 224GB 显存系统的更大模型(100B 以上)的推荐。
在M4 Max上实现本地Qwen 3.5/3.6完全离线生成会议摘要。关掉Wi-Fi进行演示。这就是未来。
Hedy会议应用现在支持通过llama.cpp使用本地模型(如Qwen和Gemma)进行完全离线的AI摘要,并提供自带模型和硬件感知模型选择选项。此次更新使得在Apple Silicon和Windows GPU上无需Wi-Fi即可运行,不过云端仍提供更快的速度和更高的质量。
在搭载RTX 4060(8GB)的笔记本电脑上运行Qwen3.6-35B-A3B——哪些有效、哪些无效以及一个令人意外的推测解码结果
详细记录了在8GB笔记本GPU上运行Qwen3.6-35B-A3B MoE模型的经历,涵盖有效优化(如--no-mmap和VRAM余量)、意料之外的发现(推测解码相比基准测试提升26%的速度)以及Windows和CPU瓶颈的陷阱。
8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱
作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置,重点提示因内部推理无限制而耗尽 max_tokens 的陷阱,并给出用 per-request thinking_budget_tokens 的解决方案。