Open Dungeon:本地角色扮演,使用Gemma 4 QAT + 内嵌Uncen-FLUX图像,在8GB内存下运行完整256K上下文(OS)
摘要
一款开源的本地AI地牢应用,使用Gemma 4和FLUX进行文本和图像生成,完全私密,运行内存低于8GB。
我想要一个AI Dungeon,但要完全本地且真正私密,所以我把它造出来了。叙述者是Gemma 4(QAT Q4),通过Ollama运行;当场景值得展示时,它也会在本地用FLUX绘制图片。没有API密钥,没有云端,一切都不离开你的机器。让我惊讶的是:你可以以完整的256k上下文运行12B模型,它仍然只占用大约7.7GB内存,因为Gemma 4的KV缓存几乎不增长。所以叙述者基本上可以把整个故事记在脑子里。旧场景滚出后会被压缩成运行摘要,这样它永远不会忘记第一章发生了什么。它的玩法如你所料:Do(行动)/ Say(说话)/ Story(叙述)模式、继续、重试、擦除、可编辑任何一行。在UI中选取模型,它会预先显示内存消耗。发布版本中有Mac一键构建版,也可以从源码运行。MIT许可,希望大家来折腾它并告诉我少了什么。[https://github.com/newideas99/open-dungeon](https://github.com/newideas99/open-dungeon)
相似文章
@UnslothAI:Gemma 4 12B 现在可以通过 Dynamic GGUFs 在仅 8GB 内存上本地运行。Google 的新模型 Gemma 4 12B Unified 支持图像…
Gemma 4 12B,Google 的多模态开放模型,支持图像、音频和 256K 上下文,现在可以通过 Unsloth 的 Dynamic GGUFs 在仅 8GB 内存上本地运行,并通过 Unsloth Studio 实现本地训练和推理。
@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE,支持250k上下文。如果你有8GB显存显卡,停下你正在做的事……
Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。
@berryxia: 兄弟们,我最近刷到一个把 本地模型Gemma 4玩出新花样的项目,直接看呆了。 你打开一个复古风地牢爬行游戏,角色走到一个NPC面前,随手一句Prompt,它居然现场给你搭出一个能跑的Web App。 这就是Google Gemma团队刚…
AIventure is an open-source dungeon crawler game from Google's Gemma team that integrates Gemma 4 to let players build web apps through NPC prompts, serving as a developer masterclass on agentic workflows and vibe-coding.
LatitudeGames/Equinox-31B · Hugging Face
Equinox-31B 是一个基于 Gemma 4 31B Instruct 微调的 AI 模型,平衡了黑暗冒险与日常生活叙事,专为交互式小说和角色扮演游戏(如 AI Dungeon)而设计。
@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行,拥有 248K Token 上下文窗口,每秒 20 个 Token,上下文窗口大得可以……
Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。