Light-Heart-Labs/DreamServer

GitHub Trending (daily) 工具

self-hosting open-source ai-infrastructure local-ai privacy llm-inference rag

摘要

Dream Server 是一个开源的、本地优先的 AI 栈，允许用户通过一条命令在自己的硬件上部署 LLM 推理、聊天、语音、代理、RAG、图像生成和隐私工具，从而消除对云提供商的依赖。

本地 AI，无处不在，人人可用 — LLM 推理、聊天界面、语音、代理、工作流、RAG 和图像生成。无需云端，无需订阅。

查看原文

查看缓存全文

缓存时间: 2026/05/17 12:27

Light-Heart-Labs/DreamServer

来源：https://github.com/Light-Heart-Labs/DreamServer

Dream Server

掌控你的AI。一人、一梦、一机，逐步实现。

少数几家公司控制着全球绝大部分AI流量——连同你的数据、你的成本和你的正常运行时间。你每次向中心化提供商发送的查询，都是你不拥有的商业情报，运行在你无法控制的基础设施上，定价条款你也无法协商。如果AI正在成为关键基础设施，那它不应是被租用的。自托管本地AI应是一项主权人权，而非一种职业选择。

Dream Server 就是退出的途径。 一个本地优先的AI栈——集LLM推理、聊天、语音、Agent、工作流、RAG、图像生成和隐私工具于一体——通过一条命令部署在你的硬件上。无需云服务。无需订阅。无人窥探。云模式和混合API模式由你按需选择。

许可证：Apache 2.0 GitHub Stars (https://github.com/Light-Heart-Labs/DreamServer/stargazers) Release (https://github.com/Light-Heart-Labs/DreamServer/releases) Dream Server Dashboard 观看演示 (https://youtu.be/nO8xFNHX-HA)

新来的？ 请阅读友善指南或收听音频版 (https://open.spotify.com/episode/40MvqJ41bC8cEgvUyOyE3K) —— 完整介绍 Dream Server 是什么、如何工作以及如何让它成为你的专属。无需技术背景。

当前平台支持

平台状态

Linux (NVIDIA + AMD + Intel Arc) 已支持 — 今天即可安装运行

Windows (NVIDIA + AMD) 已支持 — 今天即可安装运行

macOS (Apple Silicon) 已支持 — 今天即可安装运行

已测试的Linux发行版： Ubuntu 24.04/22.04, Debian 12, Fedora 41+, Arch Linux, CachyOS, openSUSE Tumbleweed。其他使用 apt、dnf、pacman 或 zypper 的发行版也应适用 —— 如果你的发行版不适用，请提交 issue (https://github.com/Light-Heart-Labs/DreamServer/issues)。

Windows： 需要安装 Docker Desktop 并启用 WSL2 后端。NVIDIA GPU 使用 Docker GPU 直通；AMD Strix Halo 通过 Windows 安装程序和支持矩阵中记录的特定平台加速路径运行。

macOS： 需要 Apple Silicon (M1+) 和 Docker Desktop。llama-server 原生运行并使用 Metal GPU 加速；所有其他服务在 Docker 中运行。

详情请参阅支持矩阵。

平台	状态
Linux (NVIDIA + AMD + Intel Arc)	已支持 — 今天即可安装运行
Windows (NVIDIA + AMD)	已支持 — 今天即可安装运行
macOS (Apple Silicon)	已支持 — 今天即可安装运行

为什么选择 Dream Server？

因为运行你自己的AI不应该需要一个计算机学位和花一个周末来调试CUDA驱动。现在，设置本地AI意味着将十几个项目拼凑在一起，从头编写Docker配置，并祈祷所有组件能够互相通信。大多数人放弃并回去给OpenAI付费。

我们构建了Dream Server，这样你就不必这样做了。

一条命令 — 检测你的GPU，选择合适的模型，生成凭证，启动一切
不到2分钟即可开始聊天 — 引导模式立即为你提供一个可用模型，同时你的完整模型在后台下载
完整的服务栈，预配置连接 — 聊天、Agent、语音、工作流、搜索、RAG、图像生成、隐私工具、可观测性和开发者工具。开箱即用，所有组件互相连接
完全可定制修改 — 每个服务都是一个扩展。放入一个文件夹，运行 dream enable，完成

curl -fsSL https://raw.githubusercontent.com/Light-Heart-Labs/DreamServer/main/dream-server/get-dream-server.sh | bash

打开 http://localhost:3000 并开始聊天。

API 端点： Linux Docker 安装默认将 llama-server 暴露在 http://localhost:11434 (OLLAMA_PORT)，而容器使用 llama-server:8080。macOS 原生 Metal 和 Windows 原生/Lemonade 路径默认使用 http://localhost:8080，除非被覆盖。Open WebUI 始终运行在 http://localhost:3000。 没有GPU？ Dream Server 也可以在云模式下运行 —— 提供相同的完整功能栈，但使用 OpenAI/Anthropic/Together API 代替本地推理：
./install.sh --cloud
端口冲突？ 每个端口都可以通过环境变量进行配置。查看 .env.example 获取完整列表，或者在安装时覆盖：
WEBUI_PORT=9090 ./install.sh

Dream Server 安装器 DREAMGATE 安装器处理一切任务——GPU 检测、模型选择、服务编排。

手动安装 (Linux)

git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer/dream-server
./install.sh

Windows (PowerShell) 需要安装 Docker Desktop (https://www.docker.com/products/docker-desktop/) 并启用 WSL2 后端。 请先安装 Docker Desktop 并确保它在运行，然后再开始。 打开一个普通的 PowerShell 会话并运行：

Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass
git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer
.\install.ps1

Set-ExecutionPolicy 命令允许安装脚本在当前会话中运行。它不会更改你的系统级策略。不建议以管理员身份运行安装程序，因为用户级路径（如 .opencode、data/ 和 .env）可能会以管理员拥有的权限创建。安装程序会检测你的GPU，选择合适的模型，生成凭证，启动所有服务，并创建指向Dashboard的桌面快捷方式。使用 .\dream-server\installers\windows\dream.ps1 status 进行管理。

macOS (Apple Silicon) 需要 Apple Silicon (M1+) 和 Docker Desktop (https://www.docker.com/products/docker-desktop/)。 请先安装 Docker Desktop 并确保它在运行，然后再开始。

git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer/dream-server
./install.sh

安装程序会检测你的芯片，为你的统一内存选择合适的模型，使用 Metal 加速原生启动 llama-server，并在 Docker 中启动所有其他服务。使用 ./dream-macos.sh status 进行管理。详情请参阅 macOS 快速入门。

包含的内容

聊天与推理

Open WebUI — 功能齐全的聊天界面，包含对话历史、网络搜索、文档上传，支持30多种语言 (https://docs.openwebui.com)
llama-server — 高性能LLM推理，支持连续批处理，根据你的GPU自动选择；Linux Docker主机API默认使用 localhost:11434，原生macOS/Windows路径使用 localhost:8080，容器API运行在 8080
LiteLLM — 支持本地/云/混合模式的API网关
TEI Embeddings — 用于RAG和搜索工作流的文本嵌入服务

语音

Whisper — 语音转文本
Kokoro — 文本转语音

Agent与自动化

Hermes Agent — 可选的本地优先自主/浏览器Agent，具有记忆、技能和魔法链接控制的代理
OpenClaw — 可选的自主AI Agent框架
n8n — 工作流自动化，支持400多个集成（Slack、电子邮件、数据库、API）
APE — 用于审计和管理自主工具调用的Agent政策引擎
OpenCode — 基于浏览器的AI编程助手，连接到本地功能栈
Memory Shepherd — 主机/systemd辅助工具，用于管理Agent记忆生命周期

知识与搜索

Qdrant — 用于检索增强生成（RAG）的向量数据库
SearXNG — 自托管网络搜索（无追踪）
Perplexica — 深度研究引擎
Brave Search — 可选的付费Brave Search API集成

创意

ComfyUI — 基于节点的图像生成

隐私与运维

Privacy Shield — 用于API调用的PII擦除代理
Dashboard — 实时GPU指标、服务健康状态、模型管理
Dashboard API — Dashboard背后的服务健康、设置、状态、指标和管理API
Token Spy — 用于监控本地和代理LLM流量的令牌使用监视器
Langfuse — 可选的LLM可观测性和追踪

硬件自动检测

安装程序会自动检测你的GPU并选择最优模型。默认路径无需手动配置。当前模型映射默认支持 MODEL_PROFILE=qwen，另外支持 MODEL_PROFILE=gemma4 和 MODEL_PROFILE=auto 用于支持的Gemma 4层级。使用 ./install.sh --tier 3 覆盖层级选择；使用 MODEL_PROFILE=gemma4 ./install.sh 或 MODEL_PROFILE=auto ./install.sh 覆盖模型系列。

NVIDIA

层级	显存	Qwen 配置	Gemma 4 配置	上下文长度	示例GPU
0	< 8 GB 或仅CPU回退	Qwen3.5 2B (Q4_K_M)	Qwen3.5 2B (适合引导的最小配置)	8K	任意GPU或仅CPU
1	8–11 GB	Qwen3.5 9B (Q4_K_M)	Gemma 4 E2B IT (Q4_K_M)	16K	RTX 4060, RTX 3060 12GB
2	12–20 GB	Qwen3.5 9B (Q4_K_M)	Gemma 4 E4B IT (Q4_K_M)	32K	RTX 3090, RTX 4080
3	20–40 GB	Qwen3 30B-A3B MoE (Q4_K_M)	Gemma 4 26B-A4B IT (Q4_K_M)	32K Qwen / 16K Gemma	RTX 4090, A6000
4	40+ GB	Qwen3 30B-A3B MoE (Q4_K_M)	Gemma 4 31B IT (Q4_K_M)	128K Qwen / 64K Gemma	A100, H100, 多GPU
NV_ULTRA	90+ GB	Qwen3 Coder Next (Q4_K_M)	Gemma 4 31B IT (Q4_K_M)	128K	多GPU A100/H100

AMD Strix Halo (统一内存)

层级	统一内存	Qwen 配置	Gemma 4 配置	上下文长度	硬件
SH_COMPACT	64–89 GB	Qwen3 30B-A3B MoE (Q4_K_M)	Gemma 4 26B-A4B IT (Q4_K_M)	128K Qwen / 64K Gemma	Ryzen AI MAX+ 395 (64GB)
SH_LARGE	90+ GB	Qwen3 Coder Next (Q4_K_M)	Gemma 4 31B IT (Q4_K_M)	128K	Ryzen AI MAX+ 395 (96GB)

Apple Silicon (统一内存, Metal)

层级	统一内存	Qwen 配置	Gemma 4 配置	上下文长度	示例硬件
0	< 16 GB	Qwen3.5 2B (Q4_K_M)	Qwen3.5 2B (适合引导的最小配置)	8K	M1/M2 基础款 (8GB)
1	16–24 GB	Qwen3.5 9B (Q4_K_M)	Gemma 4 E2B IT (Q4_K_M)	16K	M4 Mac Mini (16GB)
2	32 GB	Qwen3.5 9B (Q4_K_M)	Gemma 4 E4B IT (Q4_K_M)	32K	M4 Pro Mac Mini, M3 Max MacBook Pro
3	48 GB	Qwen3 30B-A3B MoE (Q4_K_M)	Gemma 4 26B-A4B IT (Q4_K_M)	32K Qwen / 16K Gemma	M4 Pro (48GB), M2 Max (48GB)
4	64+ GB	Qwen3 30B-A3B MoE (Q4_K_M)	Gemma 4 31B IT (Q4_K_M)	128K Qwen / 64K Gemma	M2 Ultra Mac Studio, M4 Max (64GB+)

Intel Arc (Linux, SYCL)

层级	显存	Qwen 配置	Gemma 4 配置	上下文长度	示例硬件
ARC_LITE	6–11 GB	Qwen3.5 4B (Q4_K_M)	Gemma 4 E2B IT (Q4_K_M)	16K	Arc A380, Arc A750
ARC	12+ GB	Qwen3.5 9B (Q4_K_M)	Gemma 4 E4B IT (Q4_K_M)	32K	Arc A770 16GB, 更新的Arc GPU

覆盖层级选择：./install.sh --tier 3

引导模式

无需等待大型下载。Dream Server 默认使用引导模式：

在一分钟内下载一个1.5B的小型模型
你立即开始聊天
完整模型在后台下载
当完整模型准备好时热切换——零停机

安装程序正在下载模块 安装程序并行拉取所有服务。下载支持断点续传——中断的下载可以从断点处继续。

跳过引导：./install.sh --no-bootstrap

切换模型

安装程序会为你的硬件选择一个模型，但你可以随时切换：

dream model current   # 当前运行的是什么？
dream model list      # 显示所有可用层级
dream model swap T3   # 切换到不同层级

如果新模型尚未下载，请先预取：

./scripts/pre-download.sh --tier 3  # 在切换前下载
dream model swap T3                 # 然后切换（重启 llama-server）

已经有你想用的GGUF文件？将其放入 data/models/，更新 .env 中的 GGUF_FILE 和 LLM_MODEL，然后使用CLI重启：

dream restart llm

或者直接从已安装的 dream-server 目录重启容器：

docker compose restart llama-server

回滚是自动的——如果新模型加载失败，Dream Server 会自动恢复到之前的模型。

可扩展性

Dream Server 设计为可修改的。每个服务都是一个扩展——一个包含 manifest.yaml 和 compose.yaml 的文件夹。Dashboard、CLI、健康检查和compose栈都会自动发现扩展。

extensions/services/
    my-service/
        manifest.yaml  # 元数据：名称、端口、健康端点、GPU后端
        compose.yaml   # Docker Compose 片段（自动合并到栈中）

dream enable my-service   # 启用它
dream disable my-service  # 禁用它
dream list                # 查看所有内容

安装程序本身也是模块化的——6个库和13个阶段，每个阶段在其自己的文件中。想要添加硬件层级、交换默认模型或跳过某个阶段？编辑一个文件即可。完整扩展指南 | 安装程序架构

dream-cli

dream CLI 管理你的整个功能栈：

dream status             # 健康检查 + GPU状态
dream list               # 所有服务及其状态
dream logs llm           # 查看日志（别名：llm, stt, tts）
dream restart [service]  # 重启一个或所有服务
dream start / stop       # 启动或停止功能栈
dream mode cloud         # 通过 LiteLLM 切换到云API
dream mode local         # 切换回本地推理
dream mode hybrid        # 本地为主，云为回退
dream model swap T3      # 切换到不同的硬件层级
dream enable n8n         # 启用一个扩展
dream disable whisper    # 禁用一个扩展
dream config show        # 查看 .env（密钥会隐藏）
dream preset save gaming # 保存当前配置快照
dream preset load gaming # 恢复配置快照

对比

其他工具只能让你完成一部分。Dream Server 让你完成全部。

	Dream Server	Ollama + Open WebUI	LocalAI
范围	完整AI栈——从推理到Agent再到工作流	LLM + 聊天	仅LLM
一键安装	一切，自动配置	仅LLM + 聊天	仅LLM
硬件自动检测 + 模型选择	NVIDIA + AMD Strix Halo + Apple Silicon + Intel Arc + CPU/云回退	否	否
AMD APU统一内存支持	特定平台加速后端，由安装程序选择	部分 (Vulkan)	否
自主AI Agent	Hermes Agent / OpenClaw	否	否
工作流自动化	n8n (400+ 集成)	否	否
语音 (STT + TTS)	Whisper + Kokoro	否	否
图像生成	ComfyUI	否	否
RAG流水线	Qdrant + 嵌入	否	否
扩展系统	基于清单，可热插拔	否	否
多GPU	是 (NVIDIA)	部分	部分

文档


快速入门	分步安装指南，包含故障排除
无头设置	二维码引导、首次启动设置、AP模式、mDNS和本地Agent访问
硬件指南	购买建议、层级推荐
常见问题	常见问题及配置
扩展	如何添加自定义服务
安装程序架构	模块化安装程序深入探讨
变更日志	版本历史和发布说明
贡献指南	如何贡献

英雄之墙

Dream Server 之所以存在，是因为人们选择建设而不是等待。这里的每一位贡献者都是超越代码本身的事业的一部分——这是一场日益壮大的反抗，反对AI应当被少数人租赁、设限和控制的想法。他们是主权AI运动的创始者，证明了一人、一机、一梦，足矣。

感谢 kyuz0 (https://github.com/kyuz0) 提供的 amd-strix-halo-toolboxes (https://github.com/kyuz0/amd-strix-halo-toolboxes) —— 为 Strix Halo 预构建的 ROCm 容器，

Light-Heart-Labs/DreamServer

Light-Heart-Labs/DreamServer

Dream Server

掌控你的AI。一人、一梦、一机，逐步实现。

为什么选择 Dream Server？

包含的内容

聊天与推理

语音

Agent与自动化

知识与搜索

创意

隐私与运维

硬件自动检测

NVIDIA

AMD Strix Halo (统一内存)

Apple Silicon (统一内存, Metal)

Intel Arc (Linux, SYCL)

引导模式

切换模型

可扩展性

dream-cli

对比

文档

英雄之墙

相似文章

@The_Only_Signal: AI服务器与家庭实验室的设置正在迅速变成一个已解决的问题。每个人都应该有这种感觉。你不需要……

DELIGHT – 自托管AI工程自动驾驶仪：本地大模型 + 浏览器农场 + 仓库图谱 + 点对点计算

[开源] dlmserve —— 首个扩散语言模型服务引擎

家用 LLM 服务器选 Strix Halo 还是 DGX Spark？

OpenLumara - 一种与众不同的AI代理，从头编写，非Vibe编码。极其节省Token，系统提示非常小，专为本地模型设计。一切皆模块化。

提交意见反馈