在6GB GPU上进行本地会议总结的最低门槛：qwen3.5:0.8b耗时57秒，Granite 4 350M出现幻觉

Reddit r/LocalLLaMA 2026/05/19 16:50 工具

open-source meeting-summarization local-llm whisper benchmarking small-models gpu

摘要

作者介绍了VoiceFlow，这是一款开源的本地听写和会议转录工具，并在6GB GPU上对小语言模型（qwen3.5:0.8b和Granite 4 350M）进行了会议总结基准测试，发现0.8B的Qwen可行，而低于500M的模型会出现幻觉。同时，作者向社区寻求在低显存环境下的长上下文总结解决方案。

披露：这是我开发的。开源、MIT许可、支持Windows和Linux。与[voiceflow.com](http://voiceflow.com)（聊天机器人SaaS，名称冲突，见谅）无关。为什么做这个：我希望完全本地的听写和会议转录，因为音频不应该为了变成文本而离开本机。我有一块6GB的GPU每天大部分时间闲置。于是我构建了它：按住热键，faster-whisper本地转录，文本粘贴到光标处。v1.6.0今天发布，增加了会议记录器：将麦克风和系统音频合并为一个立体声文件，本地转录，摘要发送到你指定的任意端点（Ollama, llama.cpp, Groq, OpenAI）。整个产品中唯一的网络调用是可选的摘要，而且你可以选择它的去向。与这个子论坛相关的部分：在真实工作负载上的小模型。v1.6.0是我实际在真实会议记录上进行基准测试的借口，而不是玩具提示。我首先尝试了最新的小Qwen模型，qwen3.5:0.8b（873M，Q8\_0）。测试平台：RTX 3060笔记本6GB，加载Whisper后约4.3GB空闲，Ollama 0.23，Arch。输入：一个真实的4分钟会议，约2900字符。它可以工作，但有一个注意事项。Ollama在这个GPU上默认的VRAM感知num\_ctx为4096，对于默认开启推理的推理模型，在用户可见token出现之前上下文就会被消耗完。一行的Modelfile修复：FROM qwen3.5:0.8b PARAMETER num\_ctx 16384 之后，它流式输出了一个1562字符的结构化摘要，耗时57秒，VRAM占用2.2GB。TL;DR、决策、行动项、未解决的问题，一应俱全。老实说，比我对低于1B模型的预期要好。对于“但你还没有试足够小的模型”的反驳：我在相同工作负载上验证了Granite 4.0 350M。速度上它碾压（每个摘要0.6到2.8秒，对比0.8B Qwen的57秒），并且结构清晰，各部分都在正确的位置。然后我读了输出。在一个关于Anthropic收购Bun的会议记录上，Granite返回了“Anthropic被Anthropic收购”，并且捏造了Binance作为一个讨论话题。另一个4分钟的会议记录被转化成了星际迷航的舰桥日志（“Starship Cassiopeia”、“Tao City F”、殖民飞船Andromeda）。关键词匹配，关系混乱。所以qwen3.5:0.8b-vf对我来说是工作的最低门槛，我还没见过从低于500M的模型上看到任何连贯的输出，如果有人证明我错了，我持开放态度。对于不想本机运行的人：Groq上llama-3.3-70b的免费版表现稳定。每次摘要约2秒，输出比本地0.8B更紧凑，唯一的问题是有一个4小时的会议记录超出了它们的上下文窗口。对于低于这个长度的任何内容，这是一个真正的免费选项。我真正想得到答案的问题，既然这是懂行的子论坛：低显存下的长上下文结构化摘要。0.8B Qwen在16K上下文下轻松处理4分钟的会议。对于1-2小时的记录（约30K-60K token），在6-8GB GPU上，什么方案可行？扩大上下文并增加VRAM占用、分块Map-Reduce，还是另一种不会在长输入上崩溃的小模型？我需要一种能够保持结构（TL;DR + 章节 + 要点）的方案，在输入变长时依然有效，而不需要24GB的VRAM。应用：Windows上一个.exe，Linux上一个.AppImage。Pyloid + React + faster-whisper + SQLite，CUDA自动检测，CPU回退。模型、麦克风和热键在一分钟内完成设置。Claude是许多样板代码和Qt线程复杂性的结对编程助手；架构和硬性bug是我的，git历史如实记录。仓库和1.6.0版本：[https://github.com/infiniV/VoiceFlow](https://github.com/infiniV/VoiceFlow) [https://github.com/infiniV/VoiceFlow/releases/tag/v1.6.0](https://github.com/infiniV/VoiceFlow/releases/tag/v1.6.0) 网页：[https://get-voice-flow.vercel.app/](https://get-voice-flow.vercel.app/) 主要是想听听答案。如果你觉得有用，可以给个星标，但有bug报告在Issues中更有用。

查看原文

在6GB GPU上进行本地会议总结的最低门槛：qwen3.5:0.8b耗时57秒，Granite 4 350M出现幻觉

相似文章

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

高显存本地编码模型——依然首选 Qwen 3.6 27B 吗？

在M4 Max上实现本地Qwen 3.5/3.6完全离线生成会议摘要。关掉Wi-Fi进行演示。这就是未来。

在搭载RTX 4060（8GB）的笔记本电脑上运行Qwen3.6-35B-A3B——哪些有效、哪些无效以及一个令人意外的推测解码结果

8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱

提交意见反馈