edge-ai

#edge-ai

@_lewtun: 你现在可以在笔记本上免费全天候运行 AI 研究员了！使用 llama.cpp 和 4-bi…

X AI KOLs Timeline ↗ · 2026-05-13 缓存

本文重点介绍了如何在本地笔记本上使用 llama.cpp 和 Unsloth 4-bit 量化免费运行 Qwen3-35B-A3B。

0 人收藏 0 人点赞

#edge-ai

我在原版 Game Boy Color 上成功运行了真正的 Transformer 语言模型！

Reddit r/LocalLLaMA ↗ · 2026-05-12

一位开发者通过定制 ROM 和定点运算，成功在原版 Game Boy Color 上本地运行了量化版的 TinyStories Transformer 模型。

0 人收藏 0 人点赞

#edge-ai

ExecuTorch —— 统一在终端设备运行 AI 模型的 PyTorch 方案

arXiv cs.LG ↗ · 2026-05-12 缓存

本文介绍了 ExecuTorch，这是一个原生的 PyTorch 部署框架，旨在无需模型转换或重新实现，即可在多样化的边缘设备上运行 AI 模型。

0 人收藏 0 人点赞

#edge-ai

权重剪枝放大偏见：压缩大语言模型在边缘人工智能中多方法研究

arXiv cs.LG ↗ · 2026-05-12 缓存

本研究揭示了一个“智能剪枝悖论”：诸如 Wanda 等激活感知剪枝方法虽然保持了困惑度，但在边缘设备上部署的大语言模型中显著放大了偏见。

0 人收藏 0 人点赞

#edge-ai

@berryxia: Apple 一直其实在赌端侧模型的应用！统一架构内存就是端侧模型的天然温床！统一内存也就是，内存即显存。也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了，我看完…

X AI KOLs Timeline ↗ · 2026-05-12

OpenBMB 发布了 MiniCPM-V 4.6，一个 1.3B 参数的多模态模型，通过高分辨率视觉处理和高效压缩技术，在消费级硬件和手机上实现快速推理，性能超过同类大模型，且全面开源支持多种推理和量化框架。

0 人收藏 0 人点赞

#edge-ai

使用 Transformers.js 在 WebGPU 上完全离线运行 Gemma 4，并通过 WebSerial 控制 Reachy Mini

Reddit r/LocalLLaMA ↗ · 2026-05-11

演示了如何使用 WebGPU 和 Transformers.js 在浏览器中离线运行 Gemma 4，并通过 WebSerial 控制 Reachy Mini 机器人。

0 人收藏 0 人点赞

#edge-ai

基于大语言模型的空间构建中的2.5维分解

arXiv cs.AI ↗ · 2026-05-11 缓存

本文提出了一种利用2.5维分解的神经符号流水线，通过将垂直坐标计算卸载至确定性执行器，提高了基于大语言模型的空间构建准确性，在基准测试和边缘硬件上均实现了高精度。

0 人收藏 0 人点赞

#edge-ai

@DivyanshT91162: 本地 LLM 迈入了一个全新的阶段。这个 Hugging Face 的发布简直是疯了：“gpt-oss-20b-tq3” 这是一个官方的 200 亿+ …

X AI KOLs Timeline ↗ · 2026-05-10

OpenAI 发布了一款全新的 200 亿参数以上的 MoE 模型，通过 TurboQuant 量化为 3-bit 并利用 MLX 优化，使得在标准的 16GB MacBook 上进行高性能的本地 LLM 推理成为可能。

0 人收藏 0 人点赞

#edge-ai

@JulianGoldieSEO: Google 刚刚将本地 AI 的速度提升了 3 倍，且完全免费。Gemma 4 现在在普通笔记本电脑上的运行速度已足够快，让本地 AI 终于变得……

X AI KOLs Timeline ↗ · 2026-05-08

Google 发布了 Gemma 4，这是一个针对标准笔记本电脑进行本地执行优化的开源 AI 模型，在 Apache 2.0 许可证下免费提供 3 倍性能提升和 256k 上下文窗口。

0 人收藏 0 人点赞

#edge-ai

你认为边缘AI在自主系统、机器人技术还是本地私有推理中更具意义？

Reddit r/artificial ↗ · 2026-05-08

一篇探讨边缘AI在何处产生最大影响的讨论帖：自主系统与机器人技术、低功耗视觉系统、私有本地LLM，或带宽受限的工业部署。

0 人收藏 0 人点赞

#edge-ai

本地模型是否比预期更快变得“足够好”？

Reddit r/LocalLLaMA ↗ · 2026-05-07

这篇文章讨论了本地AI模型在日常任务中日益增长的可行性，暗示了向混合架构的转变，这种架构优化成本和延迟，而不是仅仅依赖前沿的云模型。

0 人收藏 0 人点赞

#edge-ai

MiniCPM-o 4.5：迈向实时全双工全模态交互

Hugging Face Daily Papers ↗ · 2026-04-30 缓存

MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型，具备 Omni-Flow 框架，支持实时全双工交互，使模型能够同时感知并主动响应。其开源性能达到最先进水平，可与 Gemini 2.5 Flash 相媲美，并能在内存低于 12GB 的边缘设备上运行。

0 人收藏 0 人点赞

#edge-ai

AngelSlim/Hy-MT1.5-1.8B-1.25bit

Hugging Face Models Trending ↗ · 2026-04-28 缓存

腾讯 AngelSlim 团队发布了 Hy-MT1.5-1.8B-1.25bit，这是一款高度压缩的 1.25 位机器翻译模型，支持 33 种语言，体积仅 440MB，可在设备端运行。该模型采用 Sherry 量化算法，实现了世界一流的翻译质量，可与体积大得多的模型相媲美。

1 人收藏 1 人点赞

#edge-ai

Anker 自研芯片，把 AI 带进全线产品

Hacker News Top ↗ · 2026-04-22 缓存

Anker 发布自研 Thus AI 芯片，采用存内计算架构，让微型设备也能本地运行 AI，首款落地产品为即将推出的 Soundcore 旗舰耳机，带来更出色的通话降噪体验。

0 人收藏 0 人点赞

#edge-ai

Gemma 4 VLA 在 Jetson Orin Nano Super 上的演示

Hugging Face Blog ↗ · 2026-04-22 缓存

NVIDIA 与 Hugging Face 发布实操演示，展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行，使用本地语音转文字/文字转语音及网络摄像头输入。

0 人收藏 0 人点赞

#edge-ai

Soul Player C64 – 在 1 MHz Commodore 64 上运行的真正 Transformer

Hacker News Top ↗ · 2026-04-20 缓存

# gizmo64k/soulplayer-c64 来源：[https://github.com/gizmo64k/soulplayer-c64](https://github.com/gizmo64k/soulplayer-c64) # Soul Player C64 **一款在 1 MHz Commodore 64 上运行的真实 Transformer。** ``` .-------. | O O | | V | |..|---|..| # SOUL PLAYER C64 2.5万个参数。 2 层网络。真实的 Transformer。从软盘加载运行。你> 嗨 C64> 你好！这声音不错。真神奇！ ``` 一个 2 层仅解码器（Decoder-Only）Transformer —— 与 ChatGPT、Claude 和 Gemini 背后的架构相同 —— 采用手写 6502/

0 人收藏 0 人点赞

#edge-ai