local-inference

标签

Cards List
#local-inference

能将任意图像转化为可玩幻觉的扩散模型!但本地运行,非数据中心

Reddit r/ArtificialInteligence · 12小时前

一种扩散模型,能将任意图像转化为交互式可玩幻觉,在用户本地硬件上运行。

0 人收藏 0 人点赞
#local-inference

Unsloth GLM-5.2 – 如何在本地运行

Hacker News Top · 昨天 缓存

使用Unsloth Dynamic GGUFs在本地运行Z.ai的开放模型GLM-5.2的指南。该模型拥有744B总参数量(40B活跃),1M上下文窗口,量化版本可将内存降至2-bit的239GB,使得在256GB Mac上实现本地推理成为可能。

0 人收藏 0 人点赞
#local-inference

本地LLM推理优化:完整指南

Reddit r/LocalLLaMA · 2天前 缓存

一份关于在消费级硬件上优化本地LLM推理的全面指南,涵盖llama.cpp、vLLM和LM Studio等工具,并提供关于内存层次结构、层放置和常见故障模式的实用建议。

0 人收藏 0 人点赞
#local-inference

@QuixiAI: https://x.com/QuixiAI/status/2068776183102067086

X AI KOLs Following · 2天前 缓存

DwarfStar 是一个自包含的原生推理引擎,专为 DeepSeek V4 Flash 和 PRO 模型优化,支持 Metal、CUDA 和 ROCm 后端,专注于高端个人电脑和 Mac Studio。

0 人收藏 0 人点赞
#local-inference

@antirez:在 DwarfStar 中首次实现了 GLM 5.2 的基本工作版本。还需要一些时间才能变得足够好,但这只是一个有前景的开始……

X AI KOLs Following · 2天前 缓存

Antirez 报告了在 DwarfStar 中首次实现 GLM 5.2 的工作版本,使用了 433 GB 的 GGUF 文件,运行于配备 512GB 内存的 M3 Ultra 上,不过还需要进一步优化。

0 人收藏 0 人点赞
#local-inference

GLM 5.2: 使用不到一半的令牌即可达到最高级别智能的98%

Reddit r/LocalLLaMA · 3天前

GLM 5.2 提供了改进的令牌效率,让用户能够使用不到一半的令牌即可达到最高级别智能的98%。与资源密集型的‘最高’级别相比,模型的‘高’努力级别为日常使用提供了一个实用的替代方案。

0 人收藏 0 人点赞
#local-inference

GLM-5.2 现在可以在 llama.cpp 和 Unsloth Studio 中本地运行。

Reddit r/LocalLLaMA · 4天前

GLM-5.2 现已支持通过 llama.cpp 和 Unsloth Studio 本地运行。

0 人收藏 0 人点赞
#local-inference

@10xmylife: Unsloth 成功将 2-bit 版本的 GLM-5.2 部署在了 256GB 的 Mac 上

X AI KOLs Following · 5天前 缓存

Unsloth 成功将 GLM-5.2 模型以 2-bit 量化压缩至 238GB,可在 256GB Mac 上本地运行,保留约 82% 的准确率。

0 人收藏 0 人点赞
#local-inference

在仅有CPU的情况下本地运行GLM-5.2!(穷人的大型模型方案)

Reddit r/LocalLLaMA · 5天前

一位用户仅用CPU在本地运行GLM-5.2,演示如何在简陋的配置上运行大型模型。

0 人收藏 0 人点赞
#local-inference

@MaximeRivest: GLM 5.2 足够好了,这一点很重要。GLM 5.2 足以从根本上改变信息技术……

X AI KOLs Following · 5天前 缓存

GLM 5.2 是一个开放权重的大语言模型,其能力足以让企业在可负担的硬件上本地管理其 IT 需求,可能彻底改变中小企业的数据管理方式。

0 人收藏 0 人点赞
#local-inference

@MiaAI_lab:我使用Fable-5风格推理和助手轨迹对Gemma 4 12B进行了微调,并将其发布为Gemmable 4 12b。**可用…

X AI KOLs Timeline · 5天前 缓存

Mia-AiLab发布了Gemmable 4 12B,这是Google Gemma 4 12B模型的微调版本,使用了Fable-5风格推理和助手轨迹,提供GGUF和MLX格式用于本地推理。

0 人收藏 0 人点赞
#local-inference

@UnslothAI: GLM-5.2 现在可以本地运行!2-bit 模型在从 1.51TB 缩小到 238GB(-84% 大小)后保留了约 82% 的准确率…

X AI KOLs Timeline · 5天前 缓存

UnslothAI 宣布 GLM-5.2,Z.ai 的最强开源模型,拥有 744B 参数,现在可以通过动态 GGUF 量化在本地运行,将大小减少约 84% 至 239GB,同时保留约 82% 的准确率。它适用于 256GB Mac 以及 RAM/VRAM 配置,并支持长上下文、推理和代理任务。

0 人收藏 0 人点赞
#local-inference

@hank_aibtc: 猛啊!在浏览器里跑 Gemma 4,堪比 ChatGPT?! 完全零服务器、零数据上传、离线使用、纯WebGPU本地推理! Xenova把 Fable 5写的27个自定义WebGPU内核 全部开源了: - Gemma 4 E2B(23亿参…

X AI KOLs Timeline · 5天前 缓存

文章介绍了Xenova开源了27个自定义WebGPU内核,使得Gemma 4模型可以在浏览器中完全离线、本地运行,性能达到255 tok/s,并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。

0 人收藏 0 人点赞
#local-inference

@dealignai: MiniMax m3,专为 128GB Mac 打造。感谢 @hornsby_andrew 准备剪枝校准数据集并进行…

X AI KOLs Timeline · 6天前 缓存

经过剪枝和量化的 MiniMax-M3 版本(MiniMax-M3-Medium-JANG_2L),针对使用 vMLX 在 128GB Mac 上运行进行了优化,采用 32% 专家剪枝和 JANG_2L 混合精度量化,使其占用空间约 105 GB。

0 人收藏 0 人点赞
#local-inference

@mudler_it:parakeet.cpp 现已在 OpenAI API 背后运行 NVIDIA Parakeet。将任何 OpenAI 客户端指向本地服务器,发送音频,……

X AI KOLs Timeline · 6天前 缓存

parakeet.cpp 能够在本地的 OpenAI API 背后运行 NVIDIA Parakeet ASR,提供预构建的 Docker 镜像,支持 CPU 和 CUDA(包括 arm64),实现带有词级时间戳的实时转录。

0 人收藏 0 人点赞
#local-inference

@MiaAI_lab: MTP 已上线,试试吧 https://huggingface.co/Mia-AiLab/Qwable-3.6-27b-MTP…

X AI KOLs Timeline · 6天前 缓存

Mia-AiLab 发布了 Qwable-3.6-27b-MTP,这是基于 Qwen3.6-27B 的完整微调检查点,使用了经过清洗的 Fable 5 推理与指令数据集,专注于代码、结构化推理以及带有 MTP 层的本地推理。

0 人收藏 0 人点赞
#local-inference

@aijoey: WeiboAI 发布了 VibeThinker-3B,所以我必须在本地尝试一下。这是一个 3B 模型,不是大型前沿系统。在视频中…

X AI KOLs Timeline · 2026-06-16 缓存

WeiboAI 发布了 VibeThinker-3B,一个在本地测试编码任务的小型 3B 推理模型,在算法问题上取得了 3/3 的成绩。

0 人收藏 0 人点赞
#local-inference

@WaleedAhmad1a10: 查看 Qwen 3.5 27B MoQ 的 GGUF 文件:

X AI KOLs Following · 2026-06-16 缓存

Hugging Face 仓库 (kaitchup/Qwen3.6-27B-GGUF-MoQ) 提供了 Qwen3.6-27B MoQ 模型的 GGUF 量化权重,支持使用 llama.cpp 和 Ollama 等工具进行本地推理。

0 人收藏 0 人点赞
#local-inference

@juanjucm: 最近看到很多人发火……记住,你完全可以在本地运行你的编码代理 ;) llama.cpp + OpenCo…

X AI KOLs Following · 2026-06-12 缓存

一条推文提醒开发者,他们可以使用 llama.cpp 和 OpenCode 在本地运行编码代理,实现快速、可靠且私密的推理,并展示了使用 UnslothAI 的 North-Mini-Code-1.0-GGUF 模型的效果。

0 人收藏 0 人点赞
#local-inference

@amitiitbhu: Gemma 4 现在使用 MTP GGUFs 速度提升2倍!仅需6GB内存即可本地运行。新文章:GGUF如何工作?阅读:htt…

X AI KOLs Timeline · 2026-06-12 缓存

Gemma 4 现在使用 MTP GGUF 格式速度快2倍,且仅需6GB内存即可本地运行。相关文章解释了GGUF的工作原理,包括量化和内存映射。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈