Light-Heart-Labs/DreamServer
摘要
Dream Server 是一个开源的、本地优先的 AI 栈,允许用户通过一条命令在自己的硬件上部署 LLM 推理、聊天、语音、代理、RAG、图像生成和隐私工具,从而消除对云提供商的依赖。
查看缓存全文
缓存时间: 2026/05/17 12:27
Light-Heart-Labs/DreamServer
来源:https://github.com/Light-Heart-Labs/DreamServer
Dream Server
掌控你的AI。一人、一梦、一机,逐步实现。
少数几家公司控制着全球绝大部分AI流量——连同你的数据、你的成本和你的正常运行时间。你每次向中心化提供商发送的查询,都是你不拥有的商业情报,运行在你无法控制的基础设施上,定价条款你也无法协商。如果AI正在成为关键基础设施,那它不应是被租用的。自托管本地AI应是一项主权人权,而非一种职业选择。
Dream Server 就是退出的途径。 一个本地优先的AI栈——集LLM推理、聊天、语音、Agent、工作流、RAG、图像生成和隐私工具于一体——通过一条命令部署在你的硬件上。无需云服务。无需订阅。无人窥探。云模式和混合API模式由你按需选择。
许可证:Apache 2.0 GitHub Stars (https://github.com/Light-Heart-Labs/DreamServer/stargazers) Release (https://github.com/Light-Heart-Labs/DreamServer/releases) Dream Server Dashboard 观看演示 (https://youtu.be/nO8xFNHX-HA)
新来的? 请阅读 友善指南 或收听音频版 (https://open.spotify.com/episode/40MvqJ41bC8cEgvUyOyE3K) —— 完整介绍 Dream Server 是什么、如何工作以及如何让它成为你的专属。无需技术背景。
当前平台支持
平台 状态 Linux (NVIDIA + AMD + Intel Arc) 已支持 — 今天即可安装运行 Windows (NVIDIA + AMD) 已支持 — 今天即可安装运行 macOS (Apple Silicon) 已支持 — 今天即可安装运行 已测试的Linux发行版: Ubuntu 24.04/22.04, Debian 12, Fedora 41+, Arch Linux, CachyOS, openSUSE Tumbleweed。其他使用 apt、dnf、pacman 或 zypper 的发行版也应适用 —— 如果你的发行版不适用,请提交 issue (https://github.com/Light-Heart-Labs/DreamServer/issues)。
Windows: 需要安装 Docker Desktop 并启用 WSL2 后端。NVIDIA GPU 使用 Docker GPU 直通;AMD Strix Halo 通过 Windows 安装程序和支持矩阵中记录的特定平台加速路径运行。
macOS: 需要 Apple Silicon (M1+) 和 Docker Desktop。llama-server 原生运行并使用 Metal GPU 加速;所有其他服务在 Docker 中运行。
详情请参阅 支持矩阵。
为什么选择 Dream Server?
因为运行你自己的AI不应该需要一个计算机学位和花一个周末来调试CUDA驱动。现在,设置本地AI意味着将十几个项目拼凑在一起,从头编写Docker配置,并祈祷所有组件能够互相通信。大多数人放弃并回去给OpenAI付费。
我们构建了Dream Server,这样你就不必这样做了。
- 一条命令 — 检测你的GPU,选择合适的模型,生成凭证,启动一切
- 不到2分钟即可开始聊天 — 引导模式立即为你提供一个可用模型,同时你的完整模型在后台下载
- 完整的服务栈,预配置连接 — 聊天、Agent、语音、工作流、搜索、RAG、图像生成、隐私工具、可观测性和开发者工具。开箱即用,所有组件互相连接
- 完全可定制修改 — 每个服务都是一个扩展。放入一个文件夹,运行
dream enable,完成
curl -fsSL https://raw.githubusercontent.com/Light-Heart-Labs/DreamServer/main/dream-server/get-dream-server.sh | bash
打开 http://localhost:3000 并开始聊天。
API 端点: Linux Docker 安装默认将 llama-server 暴露在 http://localhost:11434 (
OLLAMA_PORT),而容器使用llama-server:8080。macOS 原生 Metal 和 Windows 原生/Lemonade 路径默认使用 http://localhost:8080,除非被覆盖。Open WebUI 始终运行在 http://localhost:3000。 没有GPU? Dream Server 也可以在云模式下运行 —— 提供相同的完整功能栈,但使用 OpenAI/Anthropic/Together API 代替本地推理:./install.sh --cloud端口冲突? 每个端口都可以通过环境变量进行配置。查看
.env.example获取完整列表,或者在安装时覆盖:WEBUI_PORT=9090 ./install.sh
Dream Server 安装器 DREAMGATE 安装器处理一切任务——GPU 检测、模型选择、服务编排。
手动安装 (Linux)
git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer/dream-server
./install.sh
Windows (PowerShell) 需要安装 Docker Desktop (https://www.docker.com/products/docker-desktop/) 并启用 WSL2 后端。 请先安装 Docker Desktop 并确保它在运行,然后再开始。 打开一个普通的 PowerShell 会话并运行:
Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass
git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer
.\install.ps1
Set-ExecutionPolicy命令允许安装脚本在当前会话中运行。它不会更改你的系统级策略。 不建议以管理员身份运行安装程序,因为用户级路径(如.opencode、data/和.env)可能会以管理员拥有的权限创建。安装程序会检测你的GPU,选择合适的模型,生成凭证,启动所有服务,并创建指向Dashboard的桌面快捷方式。使用.\dream-server\installers\windows\dream.ps1 status进行管理。
macOS (Apple Silicon) 需要 Apple Silicon (M1+) 和 Docker Desktop (https://www.docker.com/products/docker-desktop/)。 请先安装 Docker Desktop 并确保它在运行,然后再开始。
git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer/dream-server
./install.sh
安装程序会检测你的芯片,为你的统一内存选择合适的模型,使用 Metal 加速原生启动 llama-server,并在 Docker 中启动所有其他服务。使用 ./dream-macos.sh status 进行管理。
详情请参阅 macOS 快速入门。
包含的内容
聊天与推理
- Open WebUI — 功能齐全的聊天界面,包含对话历史、网络搜索、文档上传,支持30多种语言 (https://docs.openwebui.com)
- llama-server — 高性能LLM推理,支持连续批处理,根据你的GPU自动选择;Linux Docker主机API默认使用
localhost:11434,原生macOS/Windows路径使用localhost:8080,容器API运行在8080 - LiteLLM — 支持本地/云/混合模式的API网关
- TEI Embeddings — 用于RAG和搜索工作流的文本嵌入服务
语音
- Whisper — 语音转文本
- Kokoro — 文本转语音
Agent与自动化
- Hermes Agent — 可选的本地优先自主/浏览器Agent,具有记忆、技能和魔法链接控制的代理
- OpenClaw — 可选的自主AI Agent框架
- n8n — 工作流自动化,支持400多个集成(Slack、电子邮件、数据库、API)
- APE — 用于审计和管理自主工具调用的Agent政策引擎
- OpenCode — 基于浏览器的AI编程助手,连接到本地功能栈
- Memory Shepherd — 主机/systemd辅助工具,用于管理Agent记忆生命周期
知识与搜索
- Qdrant — 用于检索增强生成(RAG)的向量数据库
- SearXNG — 自托管网络搜索(无追踪)
- Perplexica — 深度研究引擎
- Brave Search — 可选的付费Brave Search API集成
创意
- ComfyUI — 基于节点的图像生成
隐私与运维
- Privacy Shield — 用于API调用的PII擦除代理
- Dashboard — 实时GPU指标、服务健康状态、模型管理
- Dashboard API — Dashboard背后的服务健康、设置、状态、指标和管理API
- Token Spy — 用于监控本地和代理LLM流量的令牌使用监视器
- Langfuse — 可选的LLM可观测性和追踪
硬件自动检测
安装程序会自动检测你的GPU并选择最优模型。默认路径无需手动配置。当前模型映射默认支持 MODEL_PROFILE=qwen,另外支持 MODEL_PROFILE=gemma4 和 MODEL_PROFILE=auto 用于支持的Gemma 4层级。使用 ./install.sh --tier 3 覆盖层级选择;使用 MODEL_PROFILE=gemma4 ./install.sh 或 MODEL_PROFILE=auto ./install.sh 覆盖模型系列。
NVIDIA
| 层级 | 显存 | Qwen 配置 | Gemma 4 配置 | 上下文长度 | 示例GPU |
|---|---|---|---|---|---|
| 0 | < 8 GB 或仅CPU回退 | Qwen3.5 2B (Q4_K_M) | Qwen3.5 2B (适合引导的最小配置) | 8K | 任意GPU或仅CPU |
| 1 | 8–11 GB | Qwen3.5 9B (Q4_K_M) | Gemma 4 E2B IT (Q4_K_M) | 16K | RTX 4060, RTX 3060 12GB |
| 2 | 12–20 GB | Qwen3.5 9B (Q4_K_M) | Gemma 4 E4B IT (Q4_K_M) | 32K | RTX 3090, RTX 4080 |
| 3 | 20–40 GB | Qwen3 30B-A3B MoE (Q4_K_M) | Gemma 4 26B-A4B IT (Q4_K_M) | 32K Qwen / 16K Gemma | RTX 4090, A6000 |
| 4 | 40+ GB | Qwen3 30B-A3B MoE (Q4_K_M) | Gemma 4 31B IT (Q4_K_M) | 128K Qwen / 64K Gemma | A100, H100, 多GPU |
| NV_ULTRA | 90+ GB | Qwen3 Coder Next (Q4_K_M) | Gemma 4 31B IT (Q4_K_M) | 128K | 多GPU A100/H100 |
AMD Strix Halo (统一内存)
| 层级 | 统一内存 | Qwen 配置 | Gemma 4 配置 | 上下文长度 | 硬件 |
|---|---|---|---|---|---|
| SH_COMPACT | 64–89 GB | Qwen3 30B-A3B MoE (Q4_K_M) | Gemma 4 26B-A4B IT (Q4_K_M) | 128K Qwen / 64K Gemma | Ryzen AI MAX+ 395 (64GB) |
| SH_LARGE | 90+ GB | Qwen3 Coder Next (Q4_K_M) | Gemma 4 31B IT (Q4_K_M) | 128K | Ryzen AI MAX+ 395 (96GB) |
Apple Silicon (统一内存, Metal)
| 层级 | 统一内存 | Qwen 配置 | Gemma 4 配置 | 上下文长度 | 示例硬件 |
|---|---|---|---|---|---|
| 0 | < 16 GB | Qwen3.5 2B (Q4_K_M) | Qwen3.5 2B (适合引导的最小配置) | 8K | M1/M2 基础款 (8GB) |
| 1 | 16–24 GB | Qwen3.5 9B (Q4_K_M) | Gemma 4 E2B IT (Q4_K_M) | 16K | M4 Mac Mini (16GB) |
| 2 | 32 GB | Qwen3.5 9B (Q4_K_M) | Gemma 4 E4B IT (Q4_K_M) | 32K | M4 Pro Mac Mini, M3 Max MacBook Pro |
| 3 | 48 GB | Qwen3 30B-A3B MoE (Q4_K_M) | Gemma 4 26B-A4B IT (Q4_K_M) | 32K Qwen / 16K Gemma | M4 Pro (48GB), M2 Max (48GB) |
| 4 | 64+ GB | Qwen3 30B-A3B MoE (Q4_K_M) | Gemma 4 31B IT (Q4_K_M) | 128K Qwen / 64K Gemma | M2 Ultra Mac Studio, M4 Max (64GB+) |
Intel Arc (Linux, SYCL)
| 层级 | 显存 | Qwen 配置 | Gemma 4 配置 | 上下文长度 | 示例硬件 |
|---|---|---|---|---|---|
| ARC_LITE | 6–11 GB | Qwen3.5 4B (Q4_K_M) | Gemma 4 E2B IT (Q4_K_M) | 16K | Arc A380, Arc A750 |
| ARC | 12+ GB | Qwen3.5 9B (Q4_K_M) | Gemma 4 E4B IT (Q4_K_M) | 32K | Arc A770 16GB, 更新的Arc GPU |
覆盖层级选择:./install.sh --tier 3
引导模式
无需等待大型下载。Dream Server 默认使用引导模式:
- 在一分钟内下载一个1.5B的小型模型
- 你立即开始聊天
- 完整模型在后台下载
- 当完整模型准备好时热切换——零停机
安装程序正在下载模块 安装程序并行拉取所有服务。下载支持断点续传——中断的下载可以从断点处继续。
跳过引导:./install.sh --no-bootstrap
切换模型
安装程序会为你的硬件选择一个模型,但你可以随时切换:
dream model current # 当前运行的是什么?
dream model list # 显示所有可用层级
dream model swap T3 # 切换到不同层级
如果新模型尚未下载,请先预取:
./scripts/pre-download.sh --tier 3 # 在切换前下载
dream model swap T3 # 然后切换(重启 llama-server)
已经有你想用的GGUF文件?将其放入 data/models/,更新 .env 中的 GGUF_FILE 和 LLM_MODEL,然后使用CLI重启:
dream restart llm
或者直接从已安装的 dream-server 目录重启容器:
docker compose restart llama-server
回滚是自动的——如果新模型加载失败,Dream Server 会自动恢复到之前的模型。
可扩展性
Dream Server 设计为可修改的。每个服务都是一个扩展——一个包含 manifest.yaml 和 compose.yaml 的文件夹。Dashboard、CLI、健康检查和compose栈都会自动发现扩展。
extensions/services/
my-service/
manifest.yaml # 元数据:名称、端口、健康端点、GPU后端
compose.yaml # Docker Compose 片段(自动合并到栈中)
dream enable my-service # 启用它
dream disable my-service # 禁用它
dream list # 查看所有内容
安装程序本身也是模块化的——6个库和13个阶段,每个阶段在其自己的文件中。想要添加硬件层级、交换默认模型或跳过某个阶段?编辑一个文件即可。 完整扩展指南 | 安装程序架构
dream-cli
dream CLI 管理你的整个功能栈:
dream status # 健康检查 + GPU状态
dream list # 所有服务及其状态
dream logs llm # 查看日志(别名:llm, stt, tts)
dream restart [service] # 重启一个或所有服务
dream start / stop # 启动或停止功能栈
dream mode cloud # 通过 LiteLLM 切换到云API
dream mode local # 切换回本地推理
dream mode hybrid # 本地为主,云为回退
dream model swap T3 # 切换到不同的硬件层级
dream enable n8n # 启用一个扩展
dream disable whisper # 禁用一个扩展
dream config show # 查看 .env(密钥会隐藏)
dream preset save gaming # 保存当前配置快照
dream preset load gaming # 恢复配置快照
对比
其他工具只能让你完成一部分。Dream Server 让你完成全部。
| Dream Server | Ollama + Open WebUI | LocalAI | |
|---|---|---|---|
| 范围 | 完整AI栈——从推理到Agent再到工作流 | LLM + 聊天 | 仅LLM |
| 一键安装 | 一切,自动配置 | 仅LLM + 聊天 | 仅LLM |
| 硬件自动检测 + 模型选择 | NVIDIA + AMD Strix Halo + Apple Silicon + Intel Arc + CPU/云回退 | 否 | 否 |
| AMD APU统一内存支持 | 特定平台加速后端,由安装程序选择 | 部分 (Vulkan) | 否 |
| 自主AI Agent | Hermes Agent / OpenClaw | 否 | 否 |
| 工作流自动化 | n8n (400+ 集成) | 否 | 否 |
| 语音 (STT + TTS) | Whisper + Kokoro | 否 | 否 |
| 图像生成 | ComfyUI | 否 | 否 |
| RAG流水线 | Qdrant + 嵌入 | 否 | 否 |
| 扩展系统 | 基于清单,可热插拔 | 否 | 否 |
| 多GPU | 是 (NVIDIA) | 部分 | 部分 |
文档
| 快速入门 | 分步安装指南,包含故障排除 |
| 无头设置 | 二维码引导、首次启动设置、AP模式、mDNS和本地Agent访问 |
| 硬件指南 | 购买建议、层级推荐 |
| 常见问题 | 常见问题及配置 |
| 扩展 | 如何添加自定义服务 |
| 安装程序架构 | 模块化安装程序深入探讨 |
| 变更日志 | 版本历史和发布说明 |
| 贡献指南 | 如何贡献 |
英雄之墙
Dream Server 之所以存在,是因为人们选择建设而不是等待。这里的每一位贡献者都是超越代码本身的事业的一部分——这是一场日益壮大的反抗,反对AI应当被少数人租赁、设限和控制的想法。他们是主权AI运动的创始者,证明了一人、一机、一梦,足矣。
感谢 kyuz0 (https://github.com/kyuz0) 提供的 amd-strix-halo-toolboxes (https://github.com/kyuz0/amd-strix-halo-toolboxes) —— 为 Strix Halo 预构建的 ROCm 容器,
相似文章
@The_Only_Signal: AI服务器与家庭实验室的设置正在迅速变成一个已解决的问题。每个人都应该有这种感觉。你不需要……
Dream Server 是一个开源的一键安装程序,能将任何PC、Mac或Linux机器变成私有AI服务器,具备本地推理、聊天界面、智能体、RAG和图像生成功能,无需云端。
DELIGHT – 自托管AI工程自动驾驶仪:本地大模型 + 浏览器农场 + 仓库图谱 + 点对点计算
DELIGHT 是一个自托管的AI工程自动驾驶仪,它结合了本地大语言模型、浏览器农场和语义仓库图谱,可在不将数据发送到云端的情况下自动完成开发任务。
[开源] dlmserve —— 首个扩散语言模型服务引擎
dlmserve 是首个面向扩散语言模型的开源服务引擎,提供兼容 OpenAI 的 API、持续批处理功能,在 12GB VRAM 内即可运行,吞吐量是 Hugging Face 的 2.5 倍。
家用 LLM 服务器选 Strix Halo 还是 DGX Spark?
用户在搭建可通过局域网访问的本地 LLM 服务器时,寻求关于选择 AMD Strix Halo 还是 Nvidia DGX Spark 硬件的建议。
OpenLumara - 一种与众不同的AI代理,从头编写,非Vibe编码。极其节省Token,系统提示非常小,专为本地模型设计。一切皆模块化。
OpenLumara是一个全新的开源AI代理框架,专为本地模型设计,强调Token效率、模块化和安全性。它从头编写,拥有小巧的系统提示,并能完全控制AI能力。